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本 书 介 绍 了 神经 网 络 的 基本 续 构 和 学 习 规 则 ， 重 点 是 对 这 些 神经 网 络 的 数学 分 析 、 训 练 
方法 和 神经 网 络 在 模式 识别 、 信 号 处 理 以 及 控制 系统 等 工程 实践 问题 中 的 应 用 。 

本 书 尽 力 用 清晰 和 一 致 的 方式 来 组 织 材料 ， 以 易于 阅读 和 使 用 。 对 每 个 讨论 的 主题 ,使 
用 大 量 例 题 来 阐明 。 

由 于 这 是 一 本 关于 神经 网 络 设计 的 书 ， 因 此 在 选择 主题 时 我 们 依据 了 两 个 原则 : 首先 ， 
尽量 采用 最 实用 的 神经 网 络 结构 、 学 习 规 则 和 训练 方法 ; 其 次 ， 尽 量 保证 该 书 的 完整 性 ， 使 
谈 者 从 一 章 到 下 一 章 的 学 习 感 党 流畅 。 为 此 ， 在 特定 主题 前 ， 都 会 有 一 些 相关 的 介绍 性 材料 
和 应 用 数学 基础 的 章节 。 总 之 ， 在 我 们 选择 的 主题 中 ， 某 些 部 分 在 神经 网 络 实 际 应 用 中 极其 
重要 ， 而 万 一 些 部 分 对 解释 神经 网 络 如 何 运 算 十 分 有 用 。 

书 中 省 去 了 很 多 本 来 可 以 收入 的 主题 。 比 如 , 我 们 并 没有 把 书写 成 有 关 所 有 已 知 神经 网 
络 结构 和 学 习 规 则 的 分 类 和 纲要 ， 而 是 集中 介绍 一 些 基 本 概念 。 甚 次， 我们 没有 讨论 神经 网 
络 的 实现 技术 ， 比 如 次 VLSI 实现 、 光 学 右 件 实现 和 并 行 计算 机 实现 等 。 为 外 ， 我 们 也 没有 
深 入 转述 神经 网 络 的 生物 学 和 心理 学 基础 。 上 述 内 容 虽 然 重要 ,但 本 书 并 不 包含 这 些 内 容 ， 
因为 我 们 希 记 能 集中 力量 把 我 们 认为 在 神经 网 络 设 计 中 对 读者 最 重要 的 主题 交 述 清楚 。 

本 书 是 为 高 年 级 本 科 生 或 一 年 级 研究 生 编写 的 半 学 期 导论 性 课程 教材 (也 适 于 作 短 期 教 
程 、 目 学 或 参考 用 书 )。 和 希望 读者 有 一 定 的 线性 代数 、 概 率 论 和 微分 方程 的 基础 知识 。 

本 书 每 一 章 都 分 为 以 下 各 节 : 目的 、 理 论 和 实例 、 小 结 、 例 题 、 绪 束 语 、 参 考 文献 和 习 
题 。 理 论 和 实例 部 分 是 各 草 的 主体 部 分 ,包括 基本 思想 的 发 展 和 实例 。 小 结 部 分 列 出 了 一 些 
重要 的 公式 和 概念 ， 以 利于 将 本 书 作为 实际 工作 的 参考 。 每 章 大 约 三 分 之 一 的 篇 幅 是 例题 部 
分 ， 这 一 部 分 给 出 了 所 有 关键 概念 的 详细 例题 。 

后 面 的 图 说 明了 各 章 之 间 的 相互 关系 。 

第 1 章 到 第 6 章 覆 盖 了 其 余 各 章 所 需要 的 基本 概念 。 第 1 章 是 绪论 部 分 ， 简单 介 绍 历 
史 背 景 和 一 些 基 本 生物 学 知识 。 第 2 章 介绍 基本 的 神经 网 络 结构 。 全 书 都 使 用 这 一 章 给 出 的 
标记 方法 。 第 3 章 描述 一 个 简单 的 模式 识别 问题 ， 并 说 明 怎样 用 三 种 不 同类 型 的 神经 网 络 可 
以 求解 。 这 三 种 网 络 是 本 书 所 述 其 余 神 经 网 络 类 型 的 代表 。 男 外 ， 所 引入 的 模式 识别 问题 也 
为 全 书 提供 了 一 个 实验 的 主线 。 

本 书 的 许多 重点 是 在 使 神经 网 络 能 完成 各 种 任务 的 训练 方法 上 。 第 4 章 介绍 学 习 算 法 ， 
并 给 出 第 一 个 实用 算法 〈 感 知 机 学 习 规 则 )。 虽 然 感知 机 网 络 存在 一 些 基 本 的 局 限 性 ， 但 蕊 
有 其 自身 的 历史 重要 性 ， 并 且 对 于 导入 某 些 关键 概念 也 是 十 分 有 用 的 工具 ， 这 些 概 念 将 要 用 
于 其 后 各 章 讨论 功能 更 加 强大 的 网 络 中 。 

本 书 的 主要 目的 是 解释 神经 网 络 的 基本 工作 原理 。 为 此 ， 我 们 将 结合 神经 网 络 这 一 主题 
给 出 其 他 的 一 些 介绍 性 材料 。 比 如 ， 第 5 和 第 6 章 要 复习 线性 代数 ， 它 是 理解 神经 网 络 的 数 
学 基础 的 核心 。 这 两 章 讨论 的 概念 在 其 余 各 章 被 三 泛 地 用 到 。 

第 7 章 和 第 13 章 到 第 16 章 介绍 主要 由 生物 学 和 心理 学 的 启示 所 得 到 的 神经 网 络 和 学 习 
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规则 - 它们 主要 分 为 两 类 : 相 联 网 络 和 竞争 网 络 。 第 7 章 和 第 13 章 介 绍 基本 概念 ， 第 14 章 
到 第 16 章 论 述 更 先进 的 网 络 。 

第 8 章 到 第 12 章 提 出 一 类 叫 性 能 学 习 (performance learning) 的 学 习 方法 ， 用 它 训练 网 
络 以 优化 网 络 的 性 能 。 第 8 RAIS 9 章 介 绍 性 能 学 习 的 基本 概念 。 第 10 章 到 第 12 章 将 这 些 
概念 用 于 前 僻 神 经 网 络 中 ， 这 将 增强 网 络 的 能 力 ， 但 同时 也 会 增加 学 习 的 复杂 性 。 

第 17 章 和 第 18 章 讨 论 递归 网 络 ， 这 些 含有 反馈 连接 的 网 络 是 一 种 动态 系统 。 第 17 章 
研究 这 些 系 统 的 稳定 性 ; 第 18 章 描述 Hopfield 网 络 ， 它 是 目前 最 有 影响 的 递归 网 络 之 一 。 

在 第 19 章 ， 我 们 对 本 书 所 给 出 的 各 种 网 络 进行 小 结 ， 并 讨论 它们 园 本 书 没 有 涉及 的 其 
他 网 络 之 间 的 关系 。 辐 时 ， 我 们 也 要 为 读者 指明 进一步 研究 的 一 些 其 他 参考 资料 。 如 果 您 想 
类 站 “我 从 此 将 走 回 何 处 ?”， 请 看 第 19 章 。 
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MATLAB 软件 包 不 是 使 用 本 书 必需 的 。 上 机 练习 可 以 用 其 他 任何 编程 语言 实现 ， 而 且 
Neural Network Design Demonstration (神经 网 络 演示 ) 虽然 对 读者 有 和 帮助， 但 也 是 理解 本 





书 涉及 材料 的 关键 所 在 。 

然而 ， 我 们 还 是 把 MATLAB 软件 包 作为 这 本 教科 书 的 附件 。 由 于 该 软件 包含 矩阵 /向 
量 的 表示 法 和 图 形 显示 ， 所 以 它 也 为 神经 网 络 的 实验 提供 了 一 种 方便 的 环境 。 我 们 以 两 种 不 
问 的 方法 使 用 MATLAB。 第 一 ， 书 中 含有 大 量 需 要 读者 用 MATLAB 完成 的 习题 。 神 经 网 
络 许多 重要 特征 只 有 在 解决 大 规模 问题 时 才能 体现 出 来 ， 这些 密集 的 计算 不 适 于 手 算 。 用 
MATLAB 能 很 快 实现 神经 网 络 算法 ， 并 对 大 量 问题 方便 地 进行 测试 。( 若 没有 MATLAB, 
用 其 他 博 言 也 可 以 完成 这 些 练习 。) 

使 用 MATLAB 的 第 二 种 方法 是 用 本 书 所 附 磁 盘 中 的 Neural Network Design Demonstra- 
tions (神经 网 络 设计 演示 )， 这 些 交 互 式 演示 阅 述 了 每 章 的 重要 概念 。 使 用 时 ， 把 软件 找到 
MATLAB 目录 中 ,在 MATLAB RSI T, iit nnd 即 可 激活 。 所 有 演示 都 可 以 在 主 菜 
单 下 访问 。 
HA 用 左边 所 示 的 图 标 ， 指 明正 文中 对 这 些 演示 的 引用 。 演 示 害 要 MATLAB 4.0 或 

ee 更 高 版 本 ,或 者 MATLAB 4.0 学 生 版 。 另 外 ， 一 些 演示 需要 用 MathWorks 公司 
的 Neural Network Toolbox (神经 网 络 工具 箱 ) 1.0 版 本 或 更 高 版 本 。 如 何 使 用 演示 软件 请 
参阅 附录 C。 

为 了 帮助 使 用 本 书 的 教师 ， 我 们 还 准备 了 投影 胶片 和 习题 答案 。 每 一 革 的 投影 胶片 (用 

微软 的 Powerpoint 格式 ) 可 以 从 网 址 www .pws.com/pwsftp.html 获得 。 也 可 以 获取 习题 答 


案 。 
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1.1 目的 


当 你 现在 看 这 本 书 的 时 候 ， 就 正在 使 用 一 个 复杂 的 生物 神经 网 络 。 你 有 -一 个 约 为 10 个 
神经 元 的 高 度 互 连 的 集合 帮助 你 完成 阅读 、 呼 吸 、 运 动 和 思考 。 你 的 每 一 个 生物 神经 元 都 是 
生物 组 织 和 化 学 物质 的 有 机 结合 。 若 不 考虑 其 速度 的 话 ， 可 以 说 每 个 神经 元 都 是 一 个 复杂 的 
微 处 理 器 。 你 的 某 些 神 经 结构 是 与 生 俱 来 的 ， 而 其 他 一 些 则 是 在 实践 中 形成 的 。 

科学 家 们 才刚 刚 开 始 对 生物 神经 网 络 工作 机 理 有 所 认识 。 一 般 认为 ， 包括 记忆 在 内 的 所 
有 生物 神经 功能 ， 都 存储 在 神经 元 和 及 其 之 间 的 连接 上 。 学 习 被 看 作 是 在 神经 元 之 间 建 立新 
的 连接 或 对 已 有 的 连接 进行 修改 的 过 程 。 这 便 将 引出 下 面 一 个 问题 : 既然 我 们 已 经 对 生物 神 
经 网 络 有 一 个 基本 的 认识 ， 那 么 能 否 利用 一 些 简单 的 人 工 “ 神 经 元 "构造 一 个 小 系统 ， 然 后 对 
其 进行 训练 ， 从 而 使 它们 具有 一 定 有 用 功能 呢 ? 回答 是 肯定 的 。 本 书 正 是 要 讨论 有 关 人 工 神 
经 网 络 工作 机 理 的 一 些 问题 。 

我 们 在 这 里 考虑 的 神经 元 不 是 生物 神经 元 。 它 们 是 对 生物 神经 元 极其 简单 的 抽象， 可 以 
用 程序 或 硅 电 路 实现 。 虽 然 由 这 些 神经 元 组 成 的 网 络 的 能 力 远 远 不 及 人 脑 的 那么 强大 ， 但 是 
可 对 其 进行 训练 ， 以 实现 一 些 有 用 的 功能 。 本 书 所 要 介绍 的 正 是 有 关于 这 样 的 神经 元 ， 以 及 
包含 这 些 神经 元 的 网 络 及 其 训练 方法 。 


1.2 历史 


在 人 工 神经 网 络 的 发 展 历程 中 ， 涌 现 了 许多 在 不 同 领域 中 富有 创造 性 的 传奇 人 物 ， 他 们 
艰苦 奋斗 几 十 年 ， 提 出 了 许多 至 今 仍 然 让 我 们 受益 的 概念 。 许 多 作者 都 记载 了 这 一 历史 。 一 
本 特别 有 趣 的 书 是 由 John Anderson 和 Edward Rosenfeld 撰写 的 《神经 计算 : 研究 的 基础 》 
( Neurocomputing: Foundations of Research )。 在 该 书 中 ， 他 们 收集 并 编辑 了 一 组 由 43 篇 具 
有 特别 历史 意义 的 论文 ， 每 一 篇 前 面 都 有 一 段 历史 观点 的 导言。 

本 书 各 章 开 始 包括 了 一 些 主要 神经 网 络 研究 人 员 的 历史 ， 所 以 这 里 不 必 赣 述 。 但 是 ， 还 
是 有 必要 简单 地 回顾 一 下 神经 网 络 的 主要 发 展 历史 。 

对 技术 进步 而 言 ， 有 两 点 是 必需 的 ; 概念 与 实现 。 首 先 ， 必 须 有 一 个 思考 问题 的 概念 ， 
根据 这 些 概 念 明确 所 面临 的 问题 。 这 就 要 求 概念 包含 一 种 简单 的 思想 ， 或 者 更 具 特 色 ， 井 且 
引 人 和 人 数学 描述 。 为 了 理解 这 一 点 ， 让 我 们 看 看 心脏 的 研究 历史 。 在 不 同时 期 ， 心 脏 被 看 成 严 
魂 的 中 心 或 身体 的 热源 。17 世纪 的 医生 们 认识 到 心脏 是 一 个 血 泵 ， 于 是 科学 家 们 开始 设 订 
实验 ， 研 究 菏 的 行为 。 这 些 实验 最 终 开创 了 循环 系统 理论 。 可 以 说 ， 没 有 泵 的 概念 ， 就 不 会 
有 人 们 对 心脏 的 次 人 认识。 

概念 及 其 相应 的 数学 描述 还 不 足以 使 新 技术 走向 成 熟 ， 除 非 能 通过 某 种 方式 实现 这 种 系 
统 。 比 如 ， 虽 然 多 年 前 就 从 数学 上 知道 根据 计算 机 辅助 层 析 成 像 (CAT) 扫 描 可 以 重 构图 像 ， 
但 是 直到 有 了 高 速 计算 机 和 有 效 的 算法 才 使 其 走向 实用 ， 并 最 终 实 现 了 有 用 的 CAT 系统 。 
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神经 网 络 的 发 展 史 同时 包含 了 概念 创新 和 实现 开发 的 进步 。 但 是 这 些 成 果 的 取得 并 不 是 
一 帆 风 顺 的 :。 

神经 网 络 领域 研究 的 育 景 工 作 始 于 19 世纪 末 和 20 地 纪 官 。 它 源 于 物理 学 、 心 理学 和 
神经 生理 学 的 路 和 学科 和 研究， 主要 代表 人 物 有 Herman Von Helmholts, Ernst Mach 和 Ivan 
Pavlov, 这 些 早期 研究 主要 还 是 看 重 于 有 关 学 习 、 视 觉 和 条 件 反 射 等 一 般 理 论 ， 并 没有 包 售 
有 关 神 经 元 工作 的 数学 模型 。 

现代 对 神经 网 络 的 研究 可 以 退潮 到 20 世纪 40 年 代 Warren McCulloch 和 Walter Pitts 的 
THE: MePi43]j。 他 们 从 原理 上 证 明了 人 工 神经 网 络 可 以 计算 任何 算 本 和 逻辑 图 数 。 通 币 认 
为 他 们 的 工作 是 神经 网 络 领域 研究 工作 的 开始 。 

在 McCulloch 和 Pitts 之 后 ，Donald Hebb [ Hebb49] 指 出 ， 经 典 的 条 件 反 射 (由 Pavlov 发 
现 ) 是 由 单个 神经 元 的 性 质 引 起 的 。 他 提出 了 生物 神经 元 的 一 种 学 习 机 制 ( 参 见 第 7 章 )。 

人 工 神 经 网 络 第 一 个 实际 应 用 出 现在 20 世纪 50 年 代 后 期 ，Frank Rosenblatt | RoseS8 | 
提出 了 感知 机 网 络 和 联想 学 习 规 则 。Rosenblatt 和 他 的 同事 构造 了 一 个 感知 机 网 络 ， 并 公开 
演示 了 它 进行 模式 识别 的 能 力 。 这 次 早期 的 成 功 引起 了 许多 人 对 神经 网 络 研究 的 兴趣 。 不 他 
的 是 ， 后 来 研究 表明 基本 的 感知 机 网 络 只 能 解决 有 限 的 几 类 问题 。( 有 闫 Rosenblatt 和 感知 
机 学 习 规 则 ， 请 参见 第 4 章 。) 

同时 ，Bernard Widrow 和 Ted Hoff [有 iHo60j 引 入 了 一 个 新 的 学 习 算 法 用 于 训练 目 适 应 
线性 神经 网 络 。 它 在 结构 和 功能 上 类 似 于 Rosenblatt 的 感知 机 。Widrow-Hoff 学 习 规 则 至 今 
仍然 还 在 使 用 。( 关 于 Widrow-Hoff 学 习 请 参见 第 10 H.) 

但 是 ，Rosenblatt 和 Widrow 的 网 络 都 有 同样 的 固有 局 限 性 。 这 些 局 限 性 在 Marvin Min- 
sky 和 Symour Papert 的 书 [ MiPa69j 中 有 广泛 的 论述 。Rosenblatt 和 Widrow 也 十 分 清楚 这 些 
局 限 性 ， 并 提出 了 一 些 新 的 网 络 来 克服 这 些 局 限 性 。 但 是 他 们 没 能 成 功 找到 训练 更 加 复杂 网 
络 的 学 习 算 法 。 

VBA 到 Minsky 和 Papert WIH , SHAM AMS EEA SoCal. RT F 
当时 没有 功能 强大 的 数字 计算 机 来 文 持 各 种 实验 ， ie lla 一 研究 领 
域 。 神 经 网 络 的 研究 就 这 样 停滞 了 十 多 年 。 

即使 如 此 ， 在 20 世纪 70 年 代 ， 科 学 家 们 仍然 在 该 领域 开展 了 许多 重要 的 工作 。1972 
年 Teuvo Kohonen [Koho72] 和 James Anderson [Ande72] 分 别 独立 提出 了 能 够 完成 记忆 的 新 
型 神经 网 络 。( 有 关 Kohonen 网 络 更 加 详细 的 内 容 请 参见 第 13 EMR 14 章 。) 这 一 时 期 ， 
Stephen Grossberg | Gros76j 在 自 组 织 网 络 方面 的 研究 也 十 分 活跃 。( 参 见 第 15 BAS 16 
Eo) 

前 面 我 们 说 过 ， 在 60 年 代 ， 由 于 缺乏 新 思想 和 用 于 实验 的 高 性 能 计算 机 ， 曾 一 度 动手 
了 人 们 对 神经 网 络 的 研究 兴趣 。 到 了 80 年 代 ， 随 着 个 人 计算 机 和 工作 站 计算 能 力 的 急剧 增 
强 和 广泛 应 用 ， 以 及 不 断 引 人 和 人 新 的 概念 ， 克 服 了 摆 在 神经 网 络 研究 面前 的 障碍 ， 人 们 对 神经 
网 络 的 研究 热情 空前 高 涨 。 

有 两 个 新 概念 对 神经 网 络 的 复兴 具有 极其 重大 的 意义 。 其 一 是 : 用 统计 机 理解 释 东 和 些 
类 型 的 递归 网 络 的 操作 ， 这 类 网 络 可 作为 联想 存储 器 。 物 理学 家 John Hopfield 的 人 研究 论文 
[ Hopf82] 论 述 了 这 些 思想 。( 第 17 章 和 第 18 章 讨论 Hopfield 网 络 。) 

其 二 是 ， 在 20 世纪 80 年 代 ， 几 个 不 同 的 研究 者 分 别 开 发 出 了 用 于 训练 多 层 感 知 机 的 反 
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传 算法 。 其 中 最 具 影 啊 力 的 反 传 算法 是 David Rumelhart 和 James McClelland | RuMc86 | 提出 
的 。 该 算法 有 力 地 回答 了 60 年 代 Minsky 和 Papert 对 神经 网 络 的 责难 。( 有 关 反 传 算法 详细 
内 容 请 参见 第 11 章 和 第 12 章 。) 

这 些 新 进展 对 神经 网 络 猎 究 领 域 重 新 注入 了 活力 。 在 过 去 的 10 年 中 ， 人 们 发 表 了 成 干 
上 万 的 神经 网 络 研究 论文 ， 神 经 网 络 也 有 了 很 多 应 用 。 许 多 理论 和 实践 工作 蜂拥 而 至 ， 以 致 
于 我 们 至 今 还 不 十 分 清楚 这 将 会 把 我 们 带 回 何方 。 

以 上 简略 的 历史 回顾 并 没有 列 出 所 有 对 神经 网 络 作出 重要 贡献 的 人 ， 但 它 能 使 读者 知 进 
神经 网 络 是 如 何 发 展 而 来 的 。 读 者 或 许 会 注意 到 ， 这 个 发 展 趋 势 并 不 总 是 “缓慢 而 坚定 "的 ， 
而 是 曾经 有 急剧 发 展 的 时 期 ， 也 有 相对 停 小 的 时 期 。 

许多 神经 网 络 研究 进展 部 与 新 概念 的 提出 有 关 ， 如 革新 的 神经 网 络 结构 和 训练 规则 。 同 
样 十 分 重要 的 是 ， 高 性 能 计算 机 的 出 现 使 新 概念 能 够 得 到 检验 。 

好 了 ， 对 神经 网 络 的 历史 就 说 这 人 么 多 。 真 正 的 问题 是 :“ 以 后 的 10 到 20 年 会 怎样 ?” 神 
经 网 络 将 演变 为 一 个 永久 的 数学 /工程 工具 ， 还 是 像 许 多 曾 大 有 和 希望 的 技术 那样 退出 历史 舞 
E? 目前 来 看 ， 似 乎 神经 网 络 不 仅 有 兴旺 的 时 日 ， 而 且 能 取得 一 个 永久 的 地 位 ， 即 使 它 不 能 
解决 所 有 问题 ， 但 在 某 些 适当 的 场合 还 是 非常 有 用 的 工具 。 男 外 ， 要 记 住 我 们 现在 对 人 脑 的 
认识 仍 很 肤浅 ， 相 信 将 来 某 一 天 神经 网 络 将 会 取得 最 重要 的 进展 。 

尽管 很 难 预料 神经 网 络 今后 能 和 否 成 功 ， 但 这 种 新 技术 的 大 量 而 广泛 应 用 还 是 令 人 获 舞 
的 。 下 面 一 他 将 介绍 一 些 神经 网 络 应 用 。 


1.3 应 用 


最 近 报纸 报道 Aston 大 学 用 神经 网 络 来 进行 文献 研究 。 这 篇 报道 说 “神经 网 络 可 以 用 来 
识别 个 人 的 写作 风格 ,研究 人 员 用 它 比 较 了 莎士比亚 和 他 同时 代 人 的 著作 ”。-- 个 大 众 科 学 电 
视 节目 最 近 报 道 了 某 意 大 利 的 研究 结构 用 神经 网 络 测试 橄榄 油 的 纯度 。 这 些 例 子 从 一 个 侧面 
说 明神 经 网 络 有 极其 广泛 的 应 用 领域 。 正 是 因为 它 适 合 于 解决 实际 问题 ， 所 以 其 应 用 领域 在 
不 断 扩大 ， 它 不 仅 可 以 广泛 应 用 于 工程 、 科 学 和 数学 领域 ， 也 可 广泛 应 用 于 医学 、 商 业 、 金 
融和 文学 等 领域 。 神 经 网 络 在 许多 领域 的 广泛 应 用 ， 使 其 极 具 吸引 力 。 同 时 ， 基 于 高 速 计算 
机 和 快速 算法 ， 也 可 以 用 神经 网 络 解决 过 去 许多 计算 量 很 大 的 复杂 工业 问题 。 

以 下 神经 网 络 的 应 用 说 明 来 源 于 MATLAB 用 到 的 Neural Network Toolbox (神经 网 络 工 
R), CZAT MathWorks 公司 的 允许 。 

1988 Æ, Æ DARPA 的 “神经 网 络 研 究 报告 "(Neural Network Study)[DARP88] 中 列举 了 
各 种 神经 网 络 的 应 用 。 其 中 第 一 个 应 用 就 是 大 约 在 1984 年 的 自 适应 频道 均衡 器 。 这 个 设备 
在 商业 上 取得 了 极 大 的 成 功 。 它 用 一 个 单 神经 元 网 络 来 稳定 电话 系统 中 长 距离 传输 的 声音 信 
E. DARPA 报告 还 列举 了 其 他 一 些 神经 网 络 在 商业 领域 中 的 应 用 ， 包 括 一 个 小 规模 的 单词 
识别 器 、 过 程 监测 器 、 声 纳 分 类 器 和 一 个 风险 分 析 系 统 。 


自 DARPA 报告 问世 以 来 ， 神 经 网 络 已 被 用 于 许多 领域 。 在 文献 中 所 列举 的 一 些 应 用 如 


F: 
航空 
高 性 能 飞行 器 自动 驾驶 仪 ， 飞 行路 径 模拟 ， 飞 机 控制 系统 ， 自 动 驾驶 优化 器 ， 飞 行 部 件 
模拟 ， 飞 行 器 部 件 故障 检测 器 
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汽车 
汽车 自动 导航 系统 ， 担 保 行为 分 析 硕 
银行 
支票 和 其 他 公文 阅读 器 ， 信 贷 申 请 的 评估 器 
国防 
武器 操纵 ， 目 标 跟 踪 ， 目 标 辨识， 面部 识别 、 新 型 的 传 感 着 ， 声 纳 、 埋 达 和 图 像 信号 处 
理 ( 包 括 数 据 压 缩 、 特 征 提取 、 嗓 声 抑制 、 信 号 /图 像 的 识别 ) 
电子 
代码 序列 预测 ， 集 成 电路 心 片 布局 ， 过 程控 制 ， 必 片 故 障 分 析 ， 机 天 视觉 ， 语 音 绿 合 ， 
非 线性 建 模 
娱乐 
Si, FX, HATH 


金融 
不 动产 评估 ， 借 贷 咨 询 ， 抵 押 审 查 ， 公 司 证 养分 级 ， 投 资 区 易 程序 ， 公 司 财 务 分析 ， 通 
代价 格 预测 

保险 
政策 应 用 评 俩 ， 产 品 优化 

制造 


生产 流程 控制 ， 产 品 设计 和 分 析 ， 过 程 和 机 器 诊 断 ， 实 时 微粒 识别 ， 可 视 质 量 监 督 系 

统 ， 啤 酒 检测 ， 焊 接 质 量 分 析 ， 纸 张 质 量 预 测 ， 计 算 机 芯片 质量 分 析 ， 磨 床 运 转 分 析 ， 

化 工 产 品 设计 分 析 ， 机 器 性 能 分 析 ， 项 目 投标 ， 计 划 和 管理， 化 工 流程 系统 动态 建 模 
医疗 

乳房 癌 细 胞 分 析 ，EEG 和 ECG 分 析 ， 修 复 设 计 ， 移 植 次 数 优 化 ， 医 院 费 用 节 流 ， 医 院 

质量 改进 ， 急 诊室 检查 建议 


石油 和 天 然 气 

探查 
机 器 人 

ins i, FHA, REF RBs, MaRS 
语音 

语音 识别 ， 语 音 压 缩 ， 元 音 识别 ， 文 本 到 语音 的 综合 
有 价 证 券 

市 场 分 析 ， 自 动 证 券 分 级 ， 股 票 交 易 咨 询 系统 
电信 

图 像 和 数据 压缩 ， 自 动 信息 服务 ， 实 时 语言 翻译 ， 客 户 支 付 处 理 系统 
交通 


卡车 制动器 诊断 系统 ， 车 辆 调度 ， 运 送 系 统 


结论 
神经 网 络 应 用 的 数量 、 投 入 到 神经 网 络 软 硬 件 上 的 资金 和 公众 对 这 些 设 计 的 兴趣 部 在 快 
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速 增 长 。 
1.4 生物 学 的 启示 


本 书 所 讲 的 人 工 神经 网 络 与 它 对 应 的 生物 神经 网 络 有 很 大 区 别 。 本 节 我 们 将 简单 介绍 人 
脑 功能 中 那些 对 人 工 神 经 网 络 钱 究 有 局 示 的 特征 。 

人 脑 由 大 量 ( 约 10 个 ) 高 度 互 连 的 单元 (每 个 单元 约 有 10 个 连接 ) 组 成 。 这 些 单元 被 称 
为 神经 元 。 就 研究 的 目的 来 看 ， 这 些 神 经 元 由 三 部 分 组 成 : 树 突 、 细 胞 体 和 轴 突 。 树 突 是 树 
状 的 神经 纤维 接收 网 络 ， 它 将 电信 和 号 传送 到 细胞 体 ， 细 胞 体 对 这 些 输入 信号 进行 整合 并 进行 
阐 值 处 理 。 轴 突 是 单 根 长 纤维 ， 它 把 细胞 体 的 输出 信号 导 同 其 他 神经 元 。 一 个 神经 细胞 的 轴 
突 和 男 一 个 神经 细胞 树 突 的 结合 点 称 为 突 触 。 神 经 元 的 排列 和 突 触 的 强度 (由 复杂 的 化 学 过 
程 决 定 ) 确 立 了 神经 网 络 的 功能 。 图 1-1 是 两 个 生物 神经 元 的 简化 图 示 。 


树 突 


ae 轴 突 
1S 
\ 


图 1-1 生物 神经 元 简 图 


一 些 神 经 结构 是 与 生 俱 来 的 ， 而 其 他 部 分 则 是 在 学 习 的 过 程 中 形成 的 。 在 学 习 的 过 程 
中 ， 可 能 会 产生 一 些 新 的 连接 ， 一 些 连接 也 可 能 会 消失 。 这 个 过 程 在 生命 早期 最 为 显 着 。 比 
如 ， 如 果 在 某 一 段 关 键 的 时 期 内 禁止 一 只 小 猫 使 用 它 某 一 只 眼睛 ， 则 它 的 这 只 眼 在 以 后 很 难 
形成 正常 的 视力 。 

神经 结构 在 整个 生命 期 内 不 断 地 进行 着 改变 ， 后 期 的 改变 主要 是 加 强 或 减弱 突 触 连接 。 
例如 ， 现 在 已 经 确认 ， 新 记忆 的 形成 是 通过 改变 突 触 强度 而 实现 的 。 所 以 ,认识 一 位 新 朋友 
面孔 的 过 程 中 包含 了 各 种 突 触 的 改变 过 程 。 

人 工 神 经 网 络 却 没有 人 脑 那 么 复杂 ， 但 它们 之 间 有 两 个 关键 相似 之 处 。 首 先 ， 两 个 网 络 
的 构成 都 是 可 计算 单元 的 高 度 互 连 (虽然 人 工 神经 元 比 生物 神经 元 简单 得 多 )。 其 次 ， 处 理 单 
元 之 间 的 连接 决定 了 网 络 的 功能 。 本 书 的 根本 目标 就 是 在 人 工 神经 网 络 中 采用 合适 的 连接 来 
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解决 特定 的 问题 。 

值得 注意 的 是 ， 虽 然 生 物 神 经 元 相对 于 电子 电路 来 说 非常 慢 (10- 秒 相对 于 10… 秒 )， 
人 脑 却 能 以 比 现 有 计算 机 快 得 多 的 速度 完成 许多 任务 。 这 主要 是 因为 生物 神经 网 络 具有 巨大 
的 并 行 性 ， 即 所 有 的 神经 元 能 同时 操作 。 即 使 大 多 数 人 工 神 经 网 络 是 在 传统 的 数字 计算 机 上 
实现 的 ， 但 并 行 处 理 结构 使 它们 适合 于 采用 VLSI、 光 学 器 件 和 并 行 处 理 技 术 实 现 。 

下 一 章 我 们 将 介绍 基本 的 人 工 神 经 元 ， 并 将 解释 如 何 将 这 些 神经 元 组 合 起 来 形成 网 络 . 
这 主要 是 为 第 3 章 提 供 背 景 知识 ， 在 第 3 章 中 我 们 将 会 看 到 能 实际 工作 的 神经 网 络 。 
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第 2 章 ， 神 经 元 模型 和 网 络 结构 





2.1 目的 


第 1 章 给 出 了 生物 神经 元 和 神经 网 络 的 简 述 。 现 在 来 介绍 简化 的 神经 元 数学 模型 ， 并 解 
释 这 些 人 工 神 经 元 如 何 相 互 连 接 形成 各 种 网 络 结构 。 男 外 ， 本 章 还 将 通过 几 个 简单 的 实例 阐 
述 这 些 网 络 如 何 工作 。 本 书 中 将 使 用 本 章 所 引入 的 概念 和 符号 。 

这 一 章 没 有 和 覆盖 该 书 中 所 用 到 的 所 有 结构 ， 但 是 给 出 了 其 他 结构 所 要 用 到 的 基本 模块 。 
更 复杂 的 结构 将 在 后 面 几 章 中 用 到 的 地 方 介绍 和 讨论 。 不 过 这 里 也 会 给 出 它们 的 许多 细节 ，。 
注意 ， 我 们 不 要 求 读者 第 一 次 阅读 就 记 住 本 章 的 所 有 内 容 ， 但 要 把 它 作 为 你 开始 着 手 学 习 的 
实例 和 以 后 要 温习 的 资料 。 


2.2 原理 和 实例 


2.2.1 符号 


神经 网 络 是 门 新 兴学 科 ， 迄 今 为 止 ， 人 们 还 并 没有 对 其 建立 三 格 的 数学 符号 和 结构 化 表 
示 。 另 外 ， 神 经 网 络 方面 的 论文 和 书籍 均 是 来 自 诸 如 工程 、 物 理 、 心 理学 和 数学 等 许多 不 同 
领域 ， 作 者 都 习惯 使 用 本 专业 的 特殊 词汇 。 于 是 ， 神 经 网 络 的 许多 文献 都 难以 阅读 ， 概 念 也 
较 实 际 情况 更 为 复杂 。 这 实在 令 人 感到 性 愧 ， 因 为 这 些 妨 碍 了 许多 重要 思想 的 传播 ， 并且 导 
致 了 不 止 一 次 的 “重复 发 明 。 

在 本 书 中 ， 我 们 尽 可 能 地 使 用 标准 符号 ， 在 不 失 严 格 的 条 件 下 使 之 简单 明了 。 特 别 地 ， 
这 里 将 尽力 保留 已 有 的 使 用 习惯 ， 并 使 其 前 后 一 致 。 

本 书 中 的 图 、 数 学 公式 以 及 解释 图 和 数学 公式 的 正文 ， 将 使 用 以 下 符号 : 

。 标量 ; 小 写 的 斜体 字母 ， 如 a,b,ec。 

。 WH: 小 写 的 黑 正体 字母 ， 如 a,b,ec。 

。 Se: 大 写 的 黑 正 体 字 母 ， 如 A,B,C。 

本 章 将 引 人 和 人 有 关 网 络 结构 的 其 他 一 些 符号 。 全 书 中 用 到 的 所 有 符号 都 可 以 在 附录 B 中 
查 到 。 所 以 ， 如 果 你 有 何 疑 问 ， 可 以 查 附录 Bo 


2.2.2 神经 元 模型 


1 . 单 输入 神经 元 

RE AEE) SMA 传输 函数 一 个 单 输入 神经 元 如 图 2-1 所 示 。 标 量 输入 p K 
上 标量 权 值 w 得 到 wp， 再 将 其 送 人 累加 器 。 男 一 个 输入 工 乘 上 偏 置 值 5， 再 将 其 送 人 累加 
器 。 累 加 器 输出 n 通常 被 称 为 净 输 入 ， 它 被 送 人 一 个 传输 函数 f， 在 f 中 产生 神经 元 的 标 
量 输 出 a。( 也 有 一 些 作者 将 该 传输 函数 称 为 “活跃 函数 ”将 偏 置 值 称 为 “ 偏 移 量 ”。) 

若 将 这 个 简单 模型 和 前 面 第 1 章 所 讨论 的 生物 神经 元 相对 照 ， 则 权 值 w 对 应 于 突 触 的 
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连接 强度 ， 细 胞 体 对 应 于 累加 器 和 传输 函数 ， 神 经 元 输出 a 代表 轴 突 的 信和 号。 


输入 通用 神经 元 


pe— i sH 
i 


Sow l 
a =f(wp+b) 


图 2-1 单 输入 神经 元 


神经 元 输出 按 下 式 计算 : 
a = f(wp + 5) 
例如 , Gw=3, p=2, b=-1.5, H 
a = f(3(2)- 1.5) = (4.5) 


实际 输出 取决 于 所 选择 的 特定 传输 函数 。 下 面 一 节 将 讨论 传输 函数 。 

偏 置 值 除了 有 常数 输入 值 1 之 外 ， 它 很 像 一 个 权 值 。 但 是 ， 如 果 不 想 在 冲 经 元 中 使 用 偏 
置 值 ， 也 可 以 忽略 它 。 在 后 面 第 3 章 、 第 7 章 和 第 14 章 中 将 出 现 这 样 的 情况 。 

注意 ，w 和 4 是 神经 元 的 可 调整 标量 参数 。 设 计 者 也 可 以 选择 特定 的 传输 函数 ， 在 一 
些 学 习 规 则 中 调整 参数 w 和 5， 以 满足 特定 的 需要 (参见 第 4 章 学 习 规 则 )。 正 如 将 在 下 一 节 
所 讨论 的 ， 依 据 不 同 目的 可 以 选择 不 同 的 传输 函数 。 

2. 传输 函数 

图 2-1 中 的 传输 函数 可 以 是 n 的 线性 或 非 线性 函数 。 可 以 用 特定 的 传输 函数 满足 神经 元 
要 解决 的 特定 问题 。 

本 书包 括 了 各 种 不 同 的 传输 函数 。 下 面 将 讨论 其 中 最 常用 的 三 种 。 

三 极 限 传输 函数 “ 硬 极 限 传输 函数 如 图 2-2 中 的 左 图 所 示 ， 当 函数 的 自 变 量 小 于 0 时， 
函数 的 输出 为 0， 当 函 数 的 自 变 量 大 于 或 等 于 0 时 ， 函 数 的 输出 为 |。 用 该 取 数 可 以 把 输入 
分 成 两 类 。 第 4 章 将 广泛 使 用 该 传输 函数 。 





a = hardlim(n) a = hardlim(wp + b) 
硬 极限 传输 函数 单 输入 hardlim 神经 元 


图 2-2 fete Bete say wa AX 
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图 2-2 的 右 图 描述 了 使 用 硬 极限 传输 函数 的 单 输入 神经 元 的 输入 /输出 特征 曲线 。 从 中 
可 看 出 权 值 和 侦 置 全 的 影响 。 注 意 ， 两 图 之 间 的 图 标 代 表 便 极限 传输 函数 。 在 网 络 罗 中 的 这 
个 图 标 表示 使 用 了 该 传输 消 数 。 
线性 传输 函数 ”线性 传输 曙 数 的 输出 等 于 输入 (如 图 2-3 Bra): 
aun (2.1) 
在 第 10 章 讨 论 的 ADALINE NAF, HATCHER EK PK 





a = purelin(n) a = purelin(wp +b) 
线性 传输 函数 单 输入 purelin 神经 元 


图 2-3 ”线性 传输 函数 


_ 2-4 | 图 2-3 右 图 是 带 偏 置 值 的 单 输 入 线性 神经 元 的 输入 /输出 特征 曲线 。 
对 数 -S 形 传输 函数 ”对 数 -S 形 (logsig) 传 输 函 数 如 图 2-4 所 示 。 





a = logsig(n) a = logsig(wp +b) 
Log-Sigmoid 传输 函数 单 输入 logsig 神经 元 


图 2-4 ”对 数 -S 形 传输 函数 
该 传输 函数 的 输入 在 ( - w ，% ) 之 间 取 值 ， 输 出 则 在 0 到 1 之 间 取 值 ， 其 数学 表达 式 





为 : 
a (2.2) 
Lpg 
在 某 种 程度 上 可 以 说 ， 正 是 由 于 对 数 -S ÉE KAEA, A AHA FRC BPE VIA 
的 多 层 网 络 才 采用 了 该 传输 也 数 。 | 
本 书 所 用 的 大 多 数 传输 函数 在 表 2-1 中 都 可 以 找到 。 当 然 ， 你 也 可 以 定义 不 同 于 表 2-1 
的 传输 函数 。 


要 对 单 输入 神经 元 进行 实验 ， 可 使 用 Neural Network Design Demonstration One- 
Input Neuron (nnd2nl ) 。 
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表 2-1 传输 函数 
名 称 | 输入 /输出 关系 图 标 MATLAB 函数 
| a=, n<O 
AOR De ae hardlim 
: ee 
| 
| a=z-1l, n<0 
对 称 硬 极限 函数 | oa us hardlims 
2x TE PRAY a=n purelin 
a=0, n<0 
饱和 线性 函数 a=n, Onel satlin 
a=1, n>] 
XY BK i A Be TE Be BK satlins 
对 数 -S 形 函数 logsig 
ILHE SEKK tansig 
TERR PE PRR poslin 
a = 1， 具 有 最 大 n 的 神经 元 [C 
compet 
—— a = 0， 所 有 其 他 神经 元 
3. 多 输入 神经 元 


权 值 矩阵 ”通常 ， 一 个 神经 元 有 不 止 一 个 输入 。 具 有 R 个 输入 的 神经 元 如 图 2-5 Bra. 
其 输入 po Pos ee Dp 分 别 对 应 权 值 矩阵 W 的 元 素 Wy js Wyo s Wy po 





a= f(Wp+b) 


图 2-5 多 输入 神经 元 
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该 神经 元 有 一 个 偏 置 值 5 ， 它 与 所 有 输入 的 加 权 和 累加 ， 从 而 形成 净 输 入 n: 


n = Wy py t Wy pz tr + Wy pprt? (2.3) 
XP RIAD BAUS A: 
n = Wp+ 5b (2.4) 
ApS aA TOR AS: W 只 有 一 列 元 素 。 
神经 元 的 输出 可 以 写成 : / 
a = f(Wp+ b) (2.5) 


所 幸 的 是 ， 神 经 网 络 通常 可 以 用 矩阵 来 描述 。 全 书 也 将 采用 这 种 矩阵 描述 方法 。 请 不 要 
为 矩阵 和 向 量 运算 担心 ， 我 们 将 在 第 5，6 章 复习 这 些 内 容 ， 并 给 出 一 些 例题 及 其 求解 方法 。 

权 值 下 标本 书 将 采用 习惯 的 方法 表示 权 值 矩 阵 元 素 的 下 标 。 权 值 矩 阵 元 素 下 标的 第 一 
个 下 标 表 示 权 值 相应 连接 所 指定 的 目标 神经 元 编号 ， 第 二 个 下 标 表示 权 值 相应 连接 的 源 神经 
TAE, EH, v ;的 含义 是 ; 该 权 值 表示 从 第 二 个 神经 元 到 第 一 个 神经 元 的 连接 。 在 本 章 
稍 后 就 会 看 到 ， 这 种 习惯 表示 法 在 有 多 个 神经 元 时 很 有 用 。 

简化 符号 “我 们 可 以 画 出 一 个 由 几 个 神经 元 组 成 的 网 络 ， 每 个 神经 元 都 有 几 个 输入 。 而 
且 ， 一 个 网 络 还 可 以 有 几 层 神经 元 。 可 以 想像 ， 当 画 出 所 有 神经 元 之 间 的 连接 后 ， 网 络 将 会 多 
么 复杂 。 网 络 中 的 大 量 连接 会 使 得 网 络 难 被 看 懂 ， 而 且 对 连接 的 详细 描述 也 会 掩盖 网 络 的 主要 
特征 ， 所 以 本 书 将 采用 简化 符号 来 表示 神经 元 。 图 2-6 为 利用 这 种 符号 所 表示 的 多 输入 神经 元 。 

输入 多 输入 神经 元 





a=f(Wp+b) 


图 2-6 具有 R 个 输入 的 神经 元 的 简化 得 号 


在 图 2-6 中 ， 左 边 垂直 的 实心 条 表示 输入 向 量 p，p 下 面 的 变量 R x 1 表示 p 的 维 数 ， 
也 即 输入 是 由 R 个 元 素 组 成 的 一 维 向 量 。 这 些 输入 被 送信 权 值 矩 阵 W，W 有 1 行列 。 毅 
量 1 则 作为 输入 与 标量 偏 置 值 b 相 乘 。 传 输 函 数 f 的 净 输 入 是 n， 它 是 偏 置 值 5 与 积 Wp 的 
和 。 在 这 种 情况 下 ， 神 经 元 的 输出 a 是 一 个 标量 。 如 果 网 络 有 多 个 神经 元 ， 那 么 网 络 输出 
就 可 能 是 一 个 向 量 。 

在 简化 符号 图 中 ， 一 般 要 标 出 变量 的 维 数 ， 这 样 可 以 立即 知道 该 变量 是 一 个 标量 ， 还 是 
一 个 向 量 ， 抑 或 是 一 个 矩阵 ， 而 不 必 费 心 去 猜 变量 的 类 型 或 维 数 。 

请 注意 ， 网 络 的 输入 是 由 问题 的 外 部 描述 决定 的 。 比 如 要 设计 神经 网 络 来 预测 风尘 飞行 
条 件 。 输 入 应 该 是 空气 的 温度 、 风 速 、 湿 度 ， 这 样 神经 网 络 就 有 三 个 输入 。 


要 对 两 输入 神经 元 进行 实验 ， 可 使 用 Neural Network Design Demonstration TWO- 
Input Neuron (nnd2n2) 。 
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2.2.3 网 络 结构 


一 般 来 说 ， 有 多 个 输入 的 单个 神经 元 并 不 能 满足 实际 应 用 的 要 求 。 在 实际 应 用 中 需要 有 
多 个 并 行 操 作 的 神经 元 ， 这 里 将 这 些 可 以 并 行 操作 的 神经 元 组 成 的 集合 称 为 “ 层 ”"。 下 面 将 对 
这 个 概念 进行 讨论 - 
1. 神经 元 的 层 
B 图 2-7 是 由 5 个 神经 元 组 成 的 单 层 网 络 。 注 意 ，R 个 输入 中 的 每 -- 个 均 与 每 个 神 
经 元 相连 ， 权 值 矩 阵 现在 有 5 行 。 
输入 S$ 个 神经 元 的 层 





a = f(Wp+b) 


图 2-7 5 个 神经 元 组 成 的 层 


该 层 包括 权 值 矩阵 、 累 加 器 、 偏 置 值 向 量 b、 传 输 函 数 框 和 输出 向 量 a。 一 些 作 者 也 把 
输入 看 作 是 另外 一 层 ， 但 这 里 并 不 这 样 认 为 。 

BARE p 的 每 个 元 素 均 通过 权 值 矩阵 W 和 每 个 神经 元 相连 。 每 个 神经 元 有 一 个 偏 置 
E b. RMR Meee f 和 一 个 输出 a;。 将 所 有 神经 元 的 输出 结合 在 一 起 ， 可 
以 得 到 一 个 输出 同 量 a 

通常 ， 每 层 的 输入 个 数 并 不 等 于 该 层 中 神经 元 的 数目 ( 即 是 R= sS). 

也 许可 能 有 人 要 问 ， 同 一 层 中 所 有 神经 元 是 否 要 有 同样 的 传输 函数 ? 回答 是 否定 的 。 可 
以 把 如 上 所 述 的 两 个 并 行 操作 网 络 组 合 在 一 起 定义 一 种 有 不 同 传 输 洱 数 的 单个 神经 元 (复合 ) 
层 。 两 个 网 络 都 有 同样 的 输入 ， 而 每 个 网 络 只 产生 一 部 分 输出 。 


输入 向 量 通 过 如 下 权 和 矩阵 W 进入 网 络 : 
WI WI,2 `° WI,R 
W 2,1 W2,2 ° Wa,R 
We] . | | (2.6) 
Ws, Ws,2 ` WSR 


RAT ATA, ERE W 中 元 素 的 行 下 标 代表 该 权 值 相应 连接 和 输出 的 目的 神经 元 ， 而 列 下 标 
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代表 该 权 值 相 应 连接 的 输入 源 神 经 元 。 那 么 ， 币 3,? 的 下 标 表 示 该 元 素 是 从 第 二 个 神经 元 到 


第 三 个 神经 元 的 连接 的 权 值 。 
同样 ， 具 有 S 个 神经 元 、R 个 输入 的 单 层 网 络 也 能 用 简化 的 符号 表示 为 如 图 2-8 所 示 


的 形式 ， 


输入 S$ 个 神经 元 的 层 





a = f(Wp+b) 


图 2-8 由 5 个 神经 元 组 成 的 层 的 简化 表示 


上 图 中 每 个 变量 下 的 符号 指明 PP 是 长 度 为 R 的 同 量 ,，W 是 一 个 Sx RERE, abe 
长 度 为 SWE. WATT, BERENS. DPE MAREE. RE Sb. 120 
数 框 和 输出 问 量 。 

2. 多 层 神 经 元 

Riri ”现在 考虑 具有 几 层 神经 元 的 网 络 。 每 层 都 有 自己 的 权 值 矩 阵 W、 偏 置 值 向 量 
210) b、 净 输入 向 量 n 和 一 个 输出 向 量 a。 这 里 需要 引 人 和 额外 的 符号 来 区 分 这 些 层次 。 我 们 可 以 
用 上 标 来 标注 这 些 层次 ， 即 每 个 变量 都 附加 一 个 上 标 来 表示 其 所 处 层次 。 这 样 ， 第 一 层 的 权 
值 矩阵 可 以 写 为 WW!， 第 二 层 的 权 值 矩阵 可 以 写 为 WwW, SS. WE 2-9 所 示 的 三 层 网 络 就 使 
用 了 这 种 标记 方法 。 


W 1 


BY) 






一 一 人 一 人 一 E> 


ve 






PAN ne? 3 a>,3 
ws R py fi W 2, 2 /Ns f? w3 3 .2 2 
S.s 
ae 1 区 2 3,3 
Í 


、 7 = 
al=f1(W'p+b!) a? = f ? (W2a! + b2) a? = f 3 (Wa? + b?) 
83 = f 3? (W3f 2 WA ! (W1p +b!) +b2) +b») 
图 2-9 三 层 网 络 


ww aibbt.com TO 00000 


PQ2G BARD fo MBSR 15 


如 图 所 示 ， 第 一 层 有 R SA, SI 个 神经 元 ， 第 二 层 有 Se 个 神经 元 ， 等 等 。 要 注意 
不 同 层 可 以 有 不 同 数目 的 神经 元 。 

第 一 层 和 第 二 层 的 输出 分 别 是 第 二 层 和 第 三 层 的 输入 。 据 此 ， 可 以 将 第 二 - 层 看 作 是 一 个 
单 层 网 络 ， 它 有 R= $1 个 输入 ，S = 3 个 神经 元 ， 和 一 个 S1x S“ 维 的 权 值 窍 阵 W 。 第 二 
层 的 输入 是 a ， 输 出 是 a 

输入 层 Bae ”如 果 某 层 的 输出 是 网 络 的 输出 ， 那 么 称 该 层 为 输出 层 ， 而 其 他 层 叫 隐 
Se. 上 图 中 的 网 络 有 一 个 输出 层 (第 3 层 ) 和 两 个 隐 含 层 (第 1 层 和 第 2 层 ) 。 

前 面 讨论 的 三 层 网 络 同 样 也 可 以 用 简化 的 符号 表示 ， 如 图 2-10 所 示 。 

输入 第 1 层 第 2 层 第 3 层 





al =f! (W'p+b!) a? = f 2(W2a! + b?) a3 = f (Wa? + b3) 
a? = f 3 (W: f 2 (W2£ | (W'p+b!)+b2) +b) 


图 2-10 三 层 网 络 的 简化 表示 


多 层 网 络 的 功能 要 比 单 层 网 络 强大 得 多 。 比 如 ， 一 个 第 一 层 具 有 S$ 形 传输 函数 、 第 二 
层 具 有 线性 传输 函数 的 网 络 ， 经 过 训练 可 对 大 多 数 函 数 达 到 任意 精度 的 逼近 ， 而 单 层 网 络 刚 
不 能 做 到 这 一 后 。 

从 上 面 讨论 可 以 看 出 ， 决 定 一 个 网 络 的 神经 元 个 数 非 常 重要 。 现 在 我 们 就 来 考虑 这 个 间 
题 。 这 个 问题 并 不 像 看 起 来 那么 复杂 。 首 先 ， 可 以 回忆 一 下 ， 网 络 的 输入 /输出 神经 元 的 数 


量 是 由 问题 外 部 描述 定义 的 。 所 以 ， 如 果 有 4 个 外 部 变量 作为 网 络 输入 ， 那 么 网 络 就 有 4 个 


A. 同样 ， 如 果 网 络 有 7 个 输出 ， 那 么 网 络 的 输出 层 就 应 该 有 7 个 神经 元 。 最 后 ， 输 出 信 
号 所 期 望 的 特征 有 助 于 选择 输出 层 的 传输 函数 。 如 果 一 个 输出 要 么 是 - 1， 要 么 是 1， 那 么 
该 输出 神经 元 就 可 以 用 对 称 硬 极限 传输 函数 。 所 以 ， 单 层 网 络 结构 完全 由 问题 措 述 决定 ， 包 
括 特定 的 输入 /输出 数 和 输出 信号 的 特征 。 

那么 ， 如 果 网 络 有 两 层 以 上 的 神经 元 时 ， 又 将 如 何 确定 各 层 的 神经 元 数目 ”其 实 问题 的 
关键 在 于 外 部 问题 并 没有 直接 指明 隐 含 层 需要 的 神经 元 数目 。 实 际 上 ， 精 确 租 测 隐 含 层 所 需 
要 的 神经 元 的 数目 至 今 仍 然 存在 一 些 在 理论 上 还 没有 解决 的 问题 。 这 个 问题 是 一 个 十 分 活 医 
的 研究 领域 。 在 第 11 章 中 讨论 反 传 算法 时 ， 将 对 此 进行 次 和 人 探讨 。 

至 于 网 络 中 的 神经 元 层 数 ， 大 多 数 实 际 的 神经 网 络 仅 仅 只 有 2 到 3 层 神 经 元 ， 很 少 有 4 
层 或 更 多 层 。 

这 里 还 应 该 讨论 一 下 偏 置 值 的 使 用 问题 。 是 否 使 用 偏 置 值 是 可 以 选择 的 。 偏 置 值 给 网 络 
提供 了 额外 的 变量 ， 从 而 使 得 网 络 具 有 更 强 的 能 力 ， 事 实 也 的 确 是 如 此 。 例 并， 如 果 没 有 侦 
置 值 ， 当 网 络 输入 p 为 0 时， 一 个 神经 元 的 净 输 入 n 总 是 为 0。 这 是 不 希望 出 现 的 ， 可 以 通 
过 用 偏 置 值 来 避免 。 本 书 将 在 第 3 章 、 第 4 章 和 第 5 章 中 讨论 偏 置 什 的 影 员 。 
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在 后 面 的 各 章 中 ， 一 些 例题 和 演示 将 省 略 偏 置 值 。 在 一 些 情况 下 ， 这 种 简化 可 以 减少 网 
络 的 参数 。 如 果 只 有 两 个 变量 ， 非 常 容易 在 一 个 二 维 平 面 上 画 出 系统 的 收 伪 情 况 。 但 是 对 于 
3 个 或 更 多 个 变量 而 言 ， 显 示 系 统 的 状态 将 变 得 比较 困难 。 


3. 递归 网 络 
ER 在 讨论 递归 网 络 前 ， 首 先 介绍 一 些 简 单 的 构造 模块 。 第 一 种 是 延 时 模块 ， 如 图 
2-11 所 示 。 
延 时 
CON 
u(t) De 
a(Q) 


a(t) =u(t- 1) 
2-11 延 时 模块 


SE i a(t) ARMA ut) 根据 下 式 计 算得 到 : 
a(t) = u(t - 1) (2.7) 
所 以 ， 和 输出 延 时 了 一 个 时 间 步 的 输 和 人 (假设 时 间 以 离散 步 的 形式 更 新 ， 且 只 到 整数 值 )。 
等 式 (2.7) 要 求 在 上 = 0 时 对 输出 进行 初始 化 。 初 始 条 件 由 图 2-11 Poe ERT RRB AY aK 
来 表示 。 
BSH 另 一 种 将 用 于 第 15 BER 18 章 中 的 连续 时 间 递 归 网 络 的 构造 模块 是 积分 兹 ， 
如 图 2-12 Pra: 
积分 器 


人 
u(t) a(f) 


eam 


a(Q) 
YW 
a(t) = S u(t) dt + a(0) 


图 2-12 积分 器 模块 
积分 器 的 输出 a(1) 由 输入 u(i) 根 据 下 式 计 算得 到 ; 
a(t) = | (ede + a(0) (2.8) 


41 26 ef a( 0) AFB Ie] BRP ae RRR BB AY BT ARE o 

递归 网 络 ”利用 上 述 模 块 就 可 以 构造 出 递归 网 络 。 一 个 递归 网 络 是 一 个 带 反 馈 的 网 络 ， 
其 部 分 输出 连接 到 它 的 输入 。 这 与 前 面 所 讨论 的 没有 反馈 连接 的 严格 前 馈 网 络 有 很 大 不 同 。 
图 2-13 给 出 了 一 种 类 型 的 离散 时 间 递 归 网 络 。 
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初始 条 件 递归 层 


oxi W n(+1)| la+) a(t) 


= OAD 
Sx1 5x1 Sxi 


a(0)=p  a(t+1)=satlins(Wa(t)+b) 
图 2-13 递归 网 络 


在 该 网 络 中 ， 向 量 p 给 出 了 其 初始 条 件 ( 即 a(0) = p )。 网 络 根据 其 前 一 次 输出 计算 当前 


的 输出 
a(1) = satlins(Wa(0) + b) ,a(2) = satlins(Wa(1) + b),.… 
递归 网 络 比 前 馈 网 络 在 本 质 上 具有 更 强 的 能 力 ， 它 可 以 表现 出 时 间 性 行为 。 本 书 的 第 3 
章 和 第 15 章 至 第 18 章 将 讨论 这 种 类 型 的 网 络 。 


2-14 


| 2-15 | 


2.3 pag 
单 输 入 神经 元 
输入 通用 神经 元 
p W > n Fi a 
b 
ae, l 
a=f(wp+b) 
多 输入 神经 元 
输入 多 输入 神经 元 





a =f(Wp+b) 
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输入 多 输入 神经 元 








2°16 
a= f(Wp+b) 
传输 函数 
| a e e 
和 名 W | 输入 /输出 关系 图 标 MATLAB 函数 
| =0, n<0 
硬 极限 函数 | ° i mda 


a=1, næ0 





hardlims 


purelin 





| a=0, n<0 
饱和 线性 项 数 | a=n, O<nel | satlin 








a=l, n>l | 
-一 一 一 一 a 

a= -1, n<-l | 

Yt BR AER PE pe BY | azn, -lsnsgl satlins 
| a=l, n>l 
对 数 -S E PRR logsig 
RL AH IED) S JEAX ] reaper tansig 
正 线 性 函数 poslin 
= a = 1]， 具 有 最 大 的 神经 元 [C] 

de i t 
2-17 | Fr Ft PH BT 4 =0， 所 有 其 他 神经 元 compe 
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神经 元 层 


输入 9 个 神经 元 的 层 





a= f(Wp+b) 





ai=fi(Wip+b') a? = f2(W2a' +b?) a? = f 3 (W3a2+b>) 
a3 = f3 (Wf 2 (W2f ! (W'p+b!)+b2) +b?) 


延 时 模块 


a(0) 
\ J 2-18 
a(t) =u(t- 1) 
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积分 器 模块 


积分 器 
/NN 
u(t) a(t) 


[p> 


a(0) 
YW 
t 
a(t) =f u(t) dt + a(0) 
0 


递归 网 络 
初始 条 件 递归 层 


n(¢+1) a(t+1) a(t) 
> (+ Sx1 pf Sx1 D TP 
hy 


DF 
Sx1 





S 


S= 一 


a(0)=p  a(t+1)=satlins(Wa(t)+b) 


如 何 选 取 一 种 网 络 结构 


应 用 问题 的 描述 从 如 下 几 个 方面 非常 有 助 于 定义 网 络 的 结构 : 
1) 网 络 的 输入 个 数 = 应 用 问题 的 输入 数 ; 

2) 输出 层 神 经 元 的 数目 = 应 用 问题 的 输出 数目 ; 

3) 输出 层 的 传输 函数 选择 至 少 部 分 依赖 于 应 用 问题 的 输出 描述 。 


2.4 例题 


P2.1 一 个 单 输入 神经 元 的 输入 是 2.0， 其 权 值 是 2.3， 偏 置 值 是 - 3。 
(i) 传输 隔 数 的 净 输 入 是 多 少 ? 
(ii) 神经 元 的 输出 是 多 少 ? 
解 
(i) 传输 函数 的 网 络 输出 由 下 式 给 出 : 
n= wp +b = (2.3)(2) + (-3) = 1.6 
(ii) 因为 未 指定 传输 函数 ， 所 以 不 能 确定 该 神经 元 的 输出 。 
P2.2 如 果 P2.1 中 的 神经 元 分 别 具 有 如 下 传输 函数 ， 请 问 其 输出 值 分 别 是 多 少 ? 
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(i) 硬 极限 函数 
(ii) 线性 函数 
(iii) 对 数 -$ 形 (7ogsizg) 国 数 
解 
(i) 对 硬 极限 传输 函数 有 

a = hardlim(1.6) = 1.0 
(ii) 对 线性 传输 函数 有 

a = purelin(1.6) = 1.6 
(iii) 对 对 数 -S Efe A 

a = logsig(1.6) = as = 0.8320 


请 用 MATLAB 和 目录 MININNET 下 的 函数 logsig 验证 此 结果 (参见 附录 B) 
P2.3 给 定 一 个 具有 如 下 参数 的 两 输入 神经 元 : b=1.2,W=[3 2],p=[-5 6] , 试 
依据 下 列传 输 函 数 计算 神经 元 输出 : 
( i ) 对称 硬 极限 传输 函数 。 
(ii) 饱和 线性 传输 函数 。 2-20 
(ii) 双 曲 正切 S 形 (tansig ) tE AR. 
解 
首先 计算 净 输 入 n: 


-5 
n = Wp+ bd = [3 21] 





(R2) == 158 


现 针对 每 种 传输 函数 计算 该 神经 元 的 输出 。 

(i) az=hardlims(-1.8)=-1 

(ii) a= satlin( -1.8) =0 

(iii) a= tansig ( - 1.8) = -0.9468 

P2.4 现 有 一 个 单 层 神经 网 络 ， 具 有 6 个 输入 和 2 个 输出 。 输 出 被 限制 为 0 到 1 之 间 的 
连续 值 。 叙 述 该 网 络 的 结构 ， 请 说 明 : 

(i) 需要 多 少 个 神经 元 ? 

(ii) 权 值 矩阵 的 维 数 是 多 少 ? 

(iii) 能 够 采用 什么 传输 函数 ? 


(iv) HERA BY? | 2-21 | 
解 
该 问题 的 求解 结果 如 下 : 


(i) 需要 两 个 输出 神经 元 ， 每 个 输出 一 个 。 

(ii) 对 应 2 个 神经 元 和 6 个 输入 ， 权 值 矩 阵 应 有 2 行 6 列 (乘积 Wp 是 一 个 二 元 问 量 )。 
(Hi) 根据 前 面 所 讨论 的 传输 函数 性 质 ， 选 用 logsig 传输 函数 是 最 运 合 的 。 

(iv) 题 中 未 能 给 出 足够 的 条 件 以 确定 是 否 需 要 偏 置 值 。 
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2.5 结束语 


本 章 介绍 了 一 种 简单 的 人 工 宰 经 元 ， 并 展示 了 如 何 通过 不 同 的 连接 方式 将 一 些 神经 元 组 
连接 起 来 构造 出 不 同 的 神经 网 络 。 本 章 的 一 个 主要 目的 是 介绍 一 些 基 本 表示 方法 。 在 随后 各 
章 中 更 为 详细 讨论 各 种 神经 网 络 时 ， 可 能 还 需 回 到 第 2 BEAR Se AAR EEE Fe TK o 

本 章 并 未 对 所 讨论 的 网 络 进行 完整 的 介绍 。 完 整 的 介绍 将 在 后 面 各 章 展 开 。 在 第 3 章 
中 ,将 会 给 出 使 用 本 章 一 些 网 络 的 一 个 简单 例子 ， 以 展示 网 络 的 实际 运行 情况 。 第 3 章 演示 
222 的 网 络 是 后 面 所 讨论 的 网 络 类 型 的 典型 代表 。 





习题 


E2.1 一 个 单 输入 神经 元 的 输入 是 2.0， 其 输入 连接 的 权 值 是 1,3， 偏 置 值 是 3.0。 如 果 它 
的 输出 分 别 为 如 下 一 些 值 ， 请 根据 表 2-1 回答 ， 它 分 别 可 以 采用 哪些 传输 函数 ? 
Ci) 1.6 
(ii) 1.0 
(iii) 0.9963 
Civ) -1.0 | 

E2.2 假设 一 个 具有 偏 置 值 的 单 输 入 神经 元 ， 现 希望 当 输 入 值 小 于 3 时 输出 是 -1， 而 
输入 值 大 于 等 于 3 时 ， 其 输出 值 为 + 1。 请 问 : 

(i) 需要 什么 类 型 的 传输 函数 ? 

(ii) 偏 置 值 应 该 取 多 大 ?” 它 与 输入 连接 的 权 值 相关 吗 ?” WRK, BATE? 

(iii) 通过 指定 传输 函数 的 名 称 、 描 述 偏 置 值 和 权 值 来 概括 该 网 络 。 请 画 出 该 网 
络 的 图 形 。 用 MATLAB 验证 网 络 的 性 能 。 

E2.3 给 定 一 个 具有 如 下 权 值 矩阵 和 输入 向 量 的 两 输入 神经 元 : W=[3 2], 且 p=[-5 7 
希望 其 输出 值 为 0.5。 请 问 是 否 存 在 偏 置 值 和 传输 函数 的 某 种 组 合 可 以 满足 这 一 要 求 ? 
(i) 若 偏 置 值 为 0， 表 2-1 中 有 能 够 实现 上 述 功 能 的 传输 函数 吗 ? 

(ii) 如 果 使 用 线性 传输 晒 数 ， 存 在 能 够 实现 上 述 功能 的 偏 钾 值 吗 ”如 果 有 ， 请 
说 明 偏 置 值 是 什么 ? 

(iii) 如 果 使 用 对 数 -S 形 传输 函数 ， 存 在 能 够 实现 上 述 功能 的 偶 置 值 吗 ? RA, 
请 说 明 偏 置 值 是 什么 ? 

(iv) 如 果 使 用 对 称 硬 极限 传输 函数 ， 存 在 能 够 实现 上 述 功 能 的 偏 置 值 吗 ? BR 
有 ， 请 说 明 偏 置 值 是 什么 ? 

F2.4 一 个 两 层 神经 网 络 有 4 个 输入 和 6 个 输出 。 输 出 值 为 取 值 0 到 1 之 间 的 连续 值 。 

| 2-23 对 于 该 网 络 的 结构 可 以 说 些 什 么 ”特别 是 : 

(i) 每 一 层 中 需要 有 和 多少 神 经 元 ? 

(ii) 第 一 层 和 第 二 层 的 权 值 矩阵 分 别 是 几 维 ? 

(iti) 每 一 层 可 用 哪 种 类 型 的 传输 盟 数 ? 

2-24 | (iv) 每 层 中 都 需要 偏 置 值 吗 ? 
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3.1 目的 


读者 可 以 将 这 一 章 看 作 是 后 面 各 章 的 一 个 前 奏 。 这 里 将 给 出 一 个 模式 识别 的 简单 问题 ， 
并 说 明 如 何 用 三 种 不 同 结构 的 神经 网 络 来 求解 这 个 问题 。 这 将 提供 一 个 了 解 如 何 利 用 上 一 章 
所 给 出 的 网 络 结构 解决 实际 问题 的 机 会 (尽管 这 个 实例 过 于 简单 ) 。 不 过 ， 也 不 要 期 望 通过 本 
章 的 学 习 就 可 以 完全 理解 这 三 种 网 络 。 这 里 之 所 以 直接 地 给 出 它们 ， 仅 仅 是 希望 读者 能 够 对 
神经 网 络 的 功能 有 一 个 感性 认识 ， 同 时 也 想 说 明 对 给 定 问题 的 求解 有 许多 种 类 型 的 网 络 可 供 
使 用 . 

在 其 余 各 草 还 会 详细 讨论 本 章 所 给 出 的 三 种 网 络 ， 前 馈 网 络 ( 这 里 以 感知 机 为 代表 )、 竞 
争 网 络 (这 里 以 Hamming 网 络 为 代表 ) 以 及 递归 联想 存储 网 络 ( 这 里 以 Hopfield 网 络 为 代表 )。 


3.2 理论 和 实例 


3.2.1 问题 描述 


某 商 贩 有 一 个 存储 各 种 水 果 和 蔬菜 的 货 仓 。 当 将 水 果 放 进货 仓 时 ， 不 同类 型 的 水 果 可 能 
会 混 消 在 一 起 ， 所 以 商贩 非常 布 望 能 够 有 一 台 能 够 帮 他 将 水 果 自 动 分 类 摆 放 的 机 器 。 假 设 从 
水 采 鲫 车 的 地 方 到 持仓 之 同 有 一 条 传送 带 。 传 送 带 要 通过 一 组 特定 的 传感器 ， 这 组 传感器 可 
以 分 别 测量 水 果 的 三 个 特征 ;， 外形、 质地 和 重量 (如 下 图 )。 这 些 传感器 功能 比较 简单 。 如 果 


神经 
网 络 


Co) | sake 
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水 果 基 本 上 是 圆 形 的 ， 外 形 传感器 的 输出 就 为 1; 如 果 水 果 更 接近 于 椭圆 ， 那 么 外形 传感器 
的 输出 就 为 - 1。 如 果 水 果 表 面 光 滑 ， 质 地 传 感 顺 的 输出 就 是 1; WRK AR RE, 
那么 质地 传感器 的 输出 就 为 - 1。 当 水 果 重 量 超过 1 磅 时 ， 重 量 传 感 策 的 和 输出 为 1; KARE 
量 轻 于 1 磅 时 ， 重 量 传 感 震 的 输出 为 - 1. 

然后 ， 这 三 个 传感器 的 输出 将 会 输入 到 神经 网 络 。 网 络 的 功能 就 是 要 确定 传送 市 上 是 什 
么 类 型 的 水 果 ， 这 样 才能 把 不 同类 型 的 水 果 分 别 送 到 相应 的 储存 仓 内 。 为 了 使 问题 更 加 简 
单 ， 现 假设 传送 带 上 只 有 两 种 类 型 的 水 采 : ERAT o 

当 每 个 水 果 通 过 这 些 传感器 后 ， 它 就 可 以 用 一 个 如 式 (3.1) 所 示 的 三 维 四 量 来 表示 。 该 


5 向 量 的 第 一 个 元 素 表示 外 形 ， 第 二 个 元 素 表示 质地 ， 第 三 个 元 素 表示 重量 : 











外 形 
p = | 质地 (3.1) 
重量 
所 以 ， 一 个 标准 橘子 可 表示 为 : 
l 
p =|- | (3.2) 
- 1 
一 个 标准 苹果 可 表示 为 : 
| 
p, = l (3.3) 
— 1 








对 传送 带 上 的 每 个 水 果 而 言 ， 神 经 网 络 都 可 接收 到 一 个 三 维 输入 向 量 ， 并 且 必 须 判断 它 
是 一 个 橘子 (p, ) 还 是 一 个 苹果 (p,)。 

既然 对 这 个 简单 的 普通 模式 识别 问题 进行 了 定义 ， 下 面 首先 讨论 求解 该 问题 所 要 用 到 的 
三 种 不 同类 型 的 神经 网 络 。 对 问题 的 简化 有 助 于 理解 这 些 网 络 的 工作 原理 。 


3.2.2 感知 机 
这 里 要 讨论 的 第 一 个 网 络 就 是 感知 机 。 图 3-1 给 出 了 采用 对 称 硬 极限 传输 孙 数 Aardlims 
的 单 层 感知 机 。 


输入 Rt BR BE AR PR 





a = hardlims(Wp + b) 


图 3-1 单 层 感知 机 
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1. 两 输入 的 情况 

在 用 感知 机 求解 橘子 /第 果 问题 之 前 ( 它 需 要 一 个 三 输 人 感知 机 ， 也 即 六 =3)， 有 必要 
人 猎 究 一 下 两 输入 单 神经 元 感知 机 (R = 2) 的 能 力 。 很 容易 用 图 示 的 方法 对 其 进行 分 析 。 两 输 
人 感知 机 如 图 3-2 所 示 。 


aA 两 输入 神经 元 


Wi 


a 
Dasani 
. [o 


ae, l 
a = hardlims (Wp+b) 


Pi 
Pa Ww, 


图 3-2 ”两 输入 的 单 神经 元 感知 机 


单 神经 元 感知 机 可 将 输入 向 量 分 成 两 类 。 例 如 ， 对 一 个 两 输入 感知 机 而 言 ， 如 末 wi, 
=-1, H w,.=1, Aha 

a = hardlims(n) = hardlims([-1 ljp+ b) (3.4) 

所 以 ， 如 果 权 值 矩 阵 ( 这 里 是 一 个 只 有 一 行 的 向 量 ) 与 输入 向 量 的 内 积 大 于 等 于 - 5， 感 

知 机 的 输出 为 1; 如 果 权 值 向 量 和 输入 的 内 积 小 于 - 5， 那 么 感知 机 的 输出 为 ~ 1。 这 束 将 输 

人 空间 划分 为 两 个 部 分 ， 图 3-3 表明 了 当 b= -1 的 情况 下 ， 该 感知 机 对 输入 空间 的 这 种 划 
分 情况 。 图 中 的 斜 线 表示 净 输 入 STONER: 

n=([-1 lip-1=0 (3.5) 


P2 





图 3-3 感知 机 判定 边界 


请 注意 该 判定 边界 总 是 和 权 值 矩阵 正 交 ， 且 边界 的 位 置 随 》 的 改变 而 上 下 移动 。( 一 般 
来 说 ， 双 是 由 多 个 行 向 量 组 成 的 矩阵 ， 每 一 行 向 量 的 使 用 方法 都 如 式 (3.5) 所 示 。W 的 每 一 
行 都 会 形成 一 个 判定 边界 。 对 该 问题 的 详细 讨论 请 参见 第 4 章 )。 阴 影 区 包含 的 是 所 有 网 络 
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34 ”输出 为 1 的 输入 向 量 ， 而 对 其 他 输入 向 量 而 言 ， 该 感知 机 的 输出 都 为 - 1。 
所 以 ， 单 神经 元 感知 机 的 天 键 性 质 是 它 能 够 将 输入 向 量 分 为 两 类 。 类 与 类 之 间 的 判定 
WAH RABE: 
Wp 十 = 0 (3.6) 


因为 边 弄 必须 是 线性 的 ， 所 以 单 层 感知 机 只 能 用 于 识别 一 些 线性 可 分 (能 够 用 一 个 线性 
边 弄 区 分 ) 的 和 模式。 这些 概念 将 在 第 4 章 进 行 更 加 详细 的 讨论 。 
2. 模式 识别 实例 
现在 回 吧 前 面 所 给 出 的 林子 /苹果 模式 识别 问题 。 因 为 仅仅 只 有 两 个 类 别 ， 所 以 可 采用 
单 神经 元 感 各 机。 向 量 输入 是 三 维 的 ( R = 3)， 该 感知 机 的 输入 /输出 关系 由 下 式 描 述 : 
Py 
a = hardlims| ll wy. 2W013 | P2 | +6 (3.7) 
P3 
SUE 7a ve FE SB b AAR, RL BE ee SR At OK 
开 来 。 比 如 说 ， 如 果 输 入 是 苹果 时 ,希望 该 感知 机 的 输出 为 1; 如 果 输 人 是 橘子 时 ， 和 希望 该 
感知 机 的 输出 为 - 1。 下 面 将 讨论 如 何 应 用 图 3-3 所 给 出 的 概念 ， 找 到 -一 个 线性 边界 将 橘子 
和 苹果 区 分 开 来 。 两 个 标准 向 量 ( 请 参考 式 (3.2) 和 式 (3.3)) 的 空间 表示 如 图 3-4 所 示 。 从 图 
DS 中 可 以 看 出 对 称 区 分 这 两 个 向 量 的 线性 边界 是 p 和 p, 两 个 平面 。 


P3 





y s 





P: 
Pil MF ) pz ZR) 
图 3-4 标准 向 量 
p, 和 p, 两 个 平面 就 是 所 求 的 判定 边界 ， 可 以 将 其 分 别 表示 为 
st (3.8) 
或 

Py | 

0 ] 0 | P? +0 = 0 (3.9) 
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H E aS A AURE AMR E Pl Zee : 
W=[0 1 0],b=0 (3.10) 
权 值 矩阵 和 判定 边界 正 交 ， 且 指向 含有 标准 模式 p,( 苹 果 ) 的 空间 区 域 ， 在 该 区 域 中 感 
知 机 的 输出 为 1。 由 于 判定 边界 通过 坐标 轴 原 点 ， 所 以 偏 置 值 为 0。 
下 面 将 对 该 感知 机 模式 分 类 颖 进行 测试 。 








当 输 入 是 橘子 时 ， 有 
a = hardlims| [0 1 af -1 +0|=- 1( 桶 子 ) (3.11) 
要 
当 输 入 是 苹果 时 ， 有 
a = hardlims = |[0 1 O] 上 + 0 1= (# R) (3.12) 
| 














由 此 可 以 看 出 ， 该 感知 机 能 够 正确 区 分 苹果 和 橘子 。 但 是 ， 当 将 一 个 并 不 是 十 分 标准 的 
橘子 放 在 分 类 器 中 ， 感 知 机 的 输出 又 将 会 是 什么 呢 ? 如 果 一 个 椭圆 形 的 橘子 通过 传 感 升 ， 那 
么 感知 机 的 输入 回 量 为 
-1 


-1 (3.13) 








网 络 的 响应 将 是 


[0 1 0 +O0/=- 1( 橘 子 ) (3.14) 


a = hardlims 











- | 
实际 上 ， 任 何 输入 向 量 如 果 相 对 于 苹果 的 标准 向 量 而 言 ， 更 加 接近 于 桶 子 的 标准 癌 量 
( 按 欧 基 里 德 上 距离) ， 那 么 该 输入 向 量 都 将 被 划 为 橘子 一 类 (反之 炙 然 ) 。 


要 试验 感知 机 网 络 和 革 果 / 桶 子 分 类 问题 ， 可 使 用 Neural Network Design Demon- 
stration Perceptron Classification( mnd3pc) -7 








该 实例 阐明 了 感知 机 网 络 的 某 些 特征 ， 但 对 感知 机 并 没有 进行 深入 全 面 的 研究 。 后 面 第 
4 章 到 第 12 章 还 会 对 该 网 络 及 其 变形 进行 深入 讨论 。 这 里 先 简要 介绍 一 下 今后 要 讨论 的 问 
题 - 
在 苹果 /橘子 分 类 问题 中 ， 可 以 通过 选择 明确 划分 模式 的 判定 边界 用 图 形 方式 设计 一 个 
网 络 。 但 在 实际 问题 中 ， 如 果 输 入 空间 维 数 较 高 ， 又 将 如 何 设计 网 络 呢 ? 第 4 章 、 第 7 BE 
第 10 章 和 第 11 章 将 介绍 用 一 组 反映 网 络 行为 的 实例 训练 网 络 的 学 习 算法 ， 以 解决 复杂 问 
题 。 
单 层 感知 机 的 关键 特性 是 它 构 造 了 一 个 线性 判定 边界 对 输入 向 量 进行 分 类 。 但 是 如 有 打 答 
入 类 别 不 能 用 线性 边界 进行 划分 ， 又 将 如 何 呢 ? 这 个 问题 将 在 第 11 章 讨 论 ， 其 中 将 介绍 一 
种 能 够 求解 任意 复杂 度 分 类 问题 的 多 层 感知 机 。 
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3.2.3 Hamming 网 络 


下 面 将 要 讨论 的 是 Hamming 网 络 [ Lipp87]. ES! ARR EARRA A IT 
的 (问题 中 输入 向 量 的 每 个 元 素 只 能 是 两 个 可 能 值 中 的 一 个 ， 这 里 取 -1 和 + 两 个 值 )。 由 
于 该 网 络 同时 采用 了 在 第 2 章 中 所 介绍 的 前 馈 层 和 递归 (反馈 ) 层 ， 因 此 该 网 络 有 许多 特殊 的 
特性 。 标 准 的 Hamming 网 络 如 图 3-5 所 示 。 请 注意 : 图 中 第 一 层 的 神经 元 的 数目 和 第 二 后 
的 神经 元 数目 相同 。 

Hamming 网 络 的 目标 是 判定 哪个 标准 向 量 最 接近 于 输入 向 量 。 判 定 结果 由 递归 层 的 输 
出 表示 。 每 个 标准 模式 均 对 应 递归 层 中 的 一 个 神经 元 ， 当 递归 层 收 敛 后 ， 递 归 层 中 只 有 一 个 
神经 元 的 输出 值 为 非 0 值 ， 该 神经 元 指明 了 哪 一 个 标准 模式 与 输入 向 量 最 接近 。 下 面 将 对 两 
JZ Hamming 网 络 进行 这 人 研究 。 


前 馈 层 WHE 





a! = purelin(W'p+b') a?(0)=a' = a2(t+ 1) = postin (W?a?(r)) 


图 3-5 Hamming 网 络 
1. 前 馈 层 
_ 3-8 | 前 馈 层 用 于 实现 每 个 标准 模式 和 输入 模式 之 间 的 相关 检测 或 求 内 积 (参见 式 (3.17))。 为 
了 使 得 前 馈 层 能 够 完成 其 功能 ， 可 以 用 标准 模式 设置 其 权 值 矩阵 的 行 ， 该 权 值 矩阵 用 连接 匈 
阵 Wi! 表示 。 对 于 苹果 /橘子 实 例 而 言 ， 有 


T 
wal? ets le | (3.15) 
| po 1 l ac i 


前 馈 层 采 用 的 是 线性 传输 函数 ， 偏 置 值 向 量 中 的 每 个 元 素 均 等 于 Ro KP, RRMA 
向 量 中 的 元 素 个 数 。 据 此 ， 可 以 将 该 实例 中 偏 置 值 癌 量 设置 为 


b= | >| (3.16) 
3 
用 权 值 矩阵 和 偏 置 值 向 量 的 这 些 选择 ， 前 馈 层 的 输出 为 
T T 
a att a pip+3 
a wiped =|? [ps 3 nia 


注意 ; 前 馈 层 的 输出 等 于 输入 和 每 个 标准 模式 的 内 积 加 尺 。 对 于 这 两 个 等 长 ( 范 数 ) 因 


(3.17) 
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Bla, ARETE AAA RAK, AER ONADA S E 
8 章 和 第 9 章 进行 深入 讨论 )。 把 内 积 加 上 R ÆA TRIER MRM WARS REAR, x 
是 递归 技 正 常 操 作 所 必需 的 。 

之 所 以 称 该 网 络 为 Hmming 网 ， 是 因为 在 前 馈 层 中 具有 最 大 输出 的 神经 天 正好 对 应 于 
与 输入 模式 Hamming 距离 最 近 的 标准 模式 (两 个 向 量 的 Hamming 距离 等 于 其 向 量 中 不 同 的 
元 紊 个 数 。 请 注意 这 只 是 针对 于 二 进 制 向 量 而 言 的 )。 请 读者 自行 验证 一 下 首 馈 层 的 输出 是 
BST 2R 减 去 标准 模式 和 输入 模式 之 间 的 两 倍 Hamming 距离 。 

2, 这 归 层 

Hamming 网 的 逆 归 层 就 是 所 谓 的 “竞争 " 层 。 该 层 的 神经 元 用 前 馈 层 的 输出 进行 初始 化 ， 
此 输出 指出 标准 模式 和 输入 回 量 之 间 的 关系 。 然后 递归 层 中 的 神经 元 相互 竞争 以 决定 谁 是 胜 
利 者 。 竞 争 后 只 有 一 个 神经 元 的 输出 值 不 等 于 0。 竞争 取胜 的 神经 元 就 表示 提供 给 网 络 的 输 
入 的 类 别 ( 比 如 在 我 们 的 实例 中 ， 就 是 苹果 和 和 杭 子 两 种 类 别 )。 撒 述 竞 争 的 等 式 为 

a (0) = a! (初始 条 件 ) (3.18) 
和 
a‘(t +1) = poslin(W’a*(1)) (3.19) 
请 注意 : 这 里 的 上 标 表示 第 二 层 ， 而 不 是 2K. poslin 传输 函数 对 于 正 值 而 言 是 线性 
级 数 ， 对 于 负 值 而 言 取 值 为 0。 权 值 矩阵 W 的 形式 为 
Ww = | l =] (3.20) 
-€ | 
其 中 8 为 小 于 15 - 1) 的 一 个 数 ，5 ARARKEN PR. A EHAA ek 
须 小 于 1/CS -1) 吗 ?) 
递归 层 的 每 次 迭代 过 程 可 以 用 下 式 表示 : 


J _ : l Hi > | E : a(t) — eas() 
a(t +1) = postin | | i a(t) | (3.21) 


从 上 式 可 以 看 出 ， 辐 量 中 每 个 元 素 都 减 去 另 一 个 元 到 的 一 部 分 ， 而 减少 的 比例 相同 ， 均 
为 e。 由 此 可 知 ， 具 有 和 较 大 值 的 元 素 减 去 的 量 较 少 ， 而 具有 较 小 值 的 元 素 减 去 的 量 较 大 ， 这 
将 导致 元 素 值 的 大 小 差别 进一步 扩大 ， 最 终 使 得 除了 初始 值 最 大 的 元 京 的 值 继续 保持 较 大 的 
值 之 外 ， 其 他 元 素 的 值 将 逐步 变 为 0。 而 输出 值 大 于 0 的 元 素 所 对 应 的 神经 元 便 对 应 于 以 
Hamming 距离 和 输入 模式 最 靠近 的 标准 模式 。 

这 里 将 再 次 以 前 面 测试 感知 机 的 椭圆 形 橘子 为 例 进 一 步 说 明 Hamming 网 络 的 机 理 。 一 
个 椭圆 形 权 子 可 以 用 问 量 表示 为 : 


(3.22) 








前 馈 层 的 输出 为 : 


[ed e» 
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这 就 是 递归 层 的 初始 化 条 件 。 
递归 层 的 权 值 矩阵 由 式 (3.20) 给 出 ， 其 中 s = 1/2( 实 际 上 ， 这 里 也 可 采用 其 他 任何 小 于 


1 的 数 )。 递 归 层 的 第 一 次 迭代 得 到 
i 1 -0.5 || 4 
= - 0.5 l 2 


a (1) = postin (Wa (0) ) = 3 3 (3,24) 
psn | | | | 
0 0 
PERAR N 
, 1 -0.5 |} 3 
en - 0.5 ] 0 
a (2) = poslin(W’a’(1)) = (3.25) 


| lel. 


由 于 递归 层 在 后 面 的 迭代 过 程 中 得 到 的 都 是 同样 的 结果 ， 这 表明 网 络 已 经 收敛 。 这 时 只 有 
第 一 个 神经 元 的 输出 为 非 0 值 ， 因 此 选择 第 一 个 神经 元 所 代表 的 标准 模式 (橘子 ) 作 为 匹配 结果 
(a 的 第 一 个 元 素 是 (ptp+ 3))。 由 于 橘子 标准 回 量 和 该 输入 模式 的 Hamming 距离 为 1， 而 苹果 
标准 向 量 和 该 输入 模式 的 Hamming 距离 为 >， 据 此 可 以 看 出 该 网 络 的 识别 结果 是 正确 的 。 


要 试验 Hamming 网 络 和 革 果 / 桶 子 分 类 问题 ， 请 使 用 Neural Network Design 
Demonstration Hamming Classification( nnd3hamc) ) 。 





有 很 多 网 络 都 是 按 Hamming 网 络 的 相同 原理 工作 ， 也 即 在 内 积 操作 层 ( 前 馈 层 ) 之 后 紧 
跟 一 个 动态 竞争 层 。 第 13 章 到 第 16 章 将 讨论 这 些 竞争 网 络 。 这 些 网 络 又 称 自 组 织 网 络 ， 它 
们 能 够 根据 所 提供 的 输入 调节 其 标准 向 量 。 


3.2.4 Hopfield 网 络 


本 章 最 后 要 简单 讨论 的 网 络 就 是 Hopfield 网 络 。 它 是 有 些 类 似 于 Hamming MiB AE 
的 一 种 递归 网 络 ， 但 它 能 有 效 地 实现 Hamming 网 络 的 两 层 所 完成 的 工作 。Hopfield 网 络 如 
图 3-6 所 示 。( 实 际 上 该 图 表示 的 是 标准 Hopfield 网 络 的 一 种 变形 。 使 用 这 个 模型 是 因 其 比 
较 简 单 ， 同 时 也 有 利于 阐明 一 些 基 本 概念 )。 

这 个 网 络 利 用 输入 向 量 对 网 络 中 的 神经 元 进行 初始 化 ， 然 后 网 络 不 断 和 迭代 直至 收敛 。 如 采 
网 络 运行 正确 ， 那 么 最 终 的 输出 结果 将 是 一 个 标准 向 量 。 所 以 ，Hamming 网 络 是 用 取 值 不 为 0 
的 神经 元 表明 选择 的 是 哪个 标准 模式 ， 而 Hopfield 网 络 则 生成 一 个 标准 模式 作为 其 输出 。 

描述 该 网 络 操 作 的 等 式 为 
a(0) =p (3.26) 
和 
a(t +1) = satlins(Wa(i) + b) (3.27) 
其 中 satlins 为 [ -1, 1] RLM RR, SAAT IAT, aA 1; 当 输 入 
小 于 -1 了 时， 函数 输出 恒 为 ~ 1. 
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a(Q)=p a(f+1)=satlins(Wa(t) +b) 


图 3-6 Hopfield 网 络 
Hopfield 网 络 的 权 值 矩阵 和 偏 置 值 向 量 的 设置 要 比 Hamming 网 络 复杂 得 多 ， 在 Ham- 
ming 网 络 中 前 馈 层 的 权 值 为 标准 模式 。 本 书 将 在 第 18 章 详细 讨论 Hopfield 的 设计 过 程 。 
为 了 说 明 该 网 络 的 工作 过 程 ， 这 里 不 妨 指定 一 个 能 解决 苹果 /橘子 识别 问题 的 权 值 矩阵 
和 偏 置 值 窍 阵 。 它 们 由 下 式 给 出 ; 
0.2 0 0 0.9 
0 ) (3.28) 
-0.9 


0 1.2 0 
0 0 0.2 

尽管 计算 Hopfield 网 络 的 权 值 和 偏 置 值 的 过 程 并 不 是 本 章 要 讨论 的 内 容 ， 但 还 是 可 以 看 
出 式 (3.28) 为 什么 可 以 解决 蔷 果 / 桶 子 问题 的 一 些 特 征 。 

这 里 希望 网 络 输出 要 么 收敛 于 柄 子 的 标准 模式 p,， 要 么 收敛 于 苹果 的 标准 模式 p,。 两 个 
模式 的 标准 向 量 的 第 一 个 元 素 均 为 1， 第 三 个 元 素 均 为 - 1， 两 者 的 不 同 之 处 在 于 第 二 个 元 素 。 
所 以 ,无 论 给 网 络 输入 什么 模式 ， 均 希望 输出 模式 的 第 一 个 元 素 收 敛 于 1， 第 三 个 元 么 收 伍 于 
- 1， 而 第 二 个 元 素 要 么 收 伍 于 1， 要 人 么 收敛 于 - 1， 使 之 最 接近 输入 向 量 的 第 二 个 元 素 。 

用 式 (3.28) 给 出 的 参数 ， 可 以 将 Hopfield 网 络 的 操作 等 式 写 成 : 

alt +1) = satlins (0.2a,(t) + 0.9) 
ao(t +1) = satlins (1.2a2(t)) (3.29) 
a3(t +1) = satlins (0.2a;(t) - 0.9) 

无 论 a.(0) 的 初始 值 是 多 少 ， 第 一 个 元 素 的 值 将 不 断 增 加 直到 最 后 的 值 汐 1， 第 三 个 元 
素 将 不 断 减 少 直到 最 后 的 值 为 - 1。 第 二 个 元 素 乘 上 一 个 大 于 1 的 数 。 所 以 如 果 第 二 个 元 素 
的 初始 值 为 负数 ， 它 将 收敛 于 - 1; 反之 ， 如 果 初 始 值 为 正 数 ， 它 将 收 合 于 1. 

值得 注意 的 是 : (W，b) 的 取 值 并 不 是 惟一 的 。 读 者 可 以 试 试 其 他 的 取 值 ， 看 看 是 否 能 


够 完成 预期 的 工作 要 求 。 
这 里 再 次 用 椭圆 形 的 橘子 实例 对 Hopfield 网 络 进行 测试 。 前 三 个 适 代 过 程 结束 时 ，Hop- 


field 网 络 的 输出 分 别 为 : 
0.7 i 
l ojal TER 
_ 1 _ 1 


nmi 1 
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尽管 和 Hamming 了 网络 和 感知 机 网 络 的 工作 方式 不 同 ， Hopfield 网 络 同 样 也 最 终 收 钱 于 
橘子 模式 。 感 知 机 只 有 一 个 取 值 为 - 1( 桶 子 ) 或 1( 半 果 ) 的 输出 。Hamming 网 络 中 也 只 有 一 
个 取 值 非 0 的 神经 元 表示 哪个 标准 模式 为 最 佳 匹 配 。 如 果 第 一 个 神经 元 取 非 0 值 ， 表 示 输 入 
模式 属于 橘子 类 别 ;， 如果 第 二 个 神经 元 取 非 0 值 ， 刘 表示 输入 模式 属于 苹果 类 别 。 在 Hop- 
field 网 络 中 ， 标 准 模式 本 号 将 会 出 现在 网 络 的 输出 上 。 
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尽管 本 章 介 绍 了 一 些 神经 网 络 ， 请 不 要 就 此 止步 。 实 际 上 ， 还 有 很 多 问题 有 符 深 入 讨 
论 。 例 如 : 如 何 知 道 网 络 最 终 一 定 会 收 剑 ? 递归 网 络 有 时 也 可 能 出 现 振荡 情况 和 混沌 行为 。 
同样 ， 这 里 也 没有 讨论 设计 权 值 窍 阵 和 偏 置 值 向 量 的 一 般 方 法 。 所 有 这 些 问 题 都 将 在 第 17 
章 和 第 18 章 中 讨论 。 


3.3 结束语 


本 章 介 绍 的 三 种 网 络 展示 了 全 书 将 要 讨论 的 结构 的 许多 共同 特性 。 

感知 机 仅仅 是 将 在 第 4 章 、 第 7 章 、 第 11 章 和 第 12 章 中 讨论 的 前 馈 网 络 的 一 个 实例 。 
在 这 些 前 馈 网 络 中 ， 网 络 的 输出 直接 根据 网 络 的 输入 计算 出 来 ， 并 不 涉及 到 反馈 。 前 馈 网 络 
可 以 用 于 诸如 苹果 /橘子 区 分 之 类 的 模式 识别 问题 ， 也 可 用 于 天 数 拟 侣 问题 (请 参见 第 11 
章 )。 在 自 适应 滤波 (参见 第 10 章 ) 和 自动 控制 等 领域 均 有 了 肯 数 拟 合 的 应 用 场合 。 

这 里 以 Hamming 网 络 为 代表 的 竞争 网 络 有 两 个 主要 特点 。 其 一 是 它们 计算 出 已 存储 的 
标准 模式 和 输入 模式 之 间 的 距离 测度 。 其 二 是 通过 竞争 决定 哪 一 个 神经 元 表示 的 标准 模式 最 
接近 于 输入 模式 。 在 第 14 章 到 第 16 章 所 讨论 的 充 争 网 络 中 ， 当 给 网 络 提供 新 的 输入 时 ， 要 
对 标准 模式 进行 调整 。 这 种 目 适 应 网 络 学 习 如 何 将 输 人 聚 类 到 不 同 的 类 别 。 

诸如 Hopfield 之 类 的 递归 网 络 最 初 是 从 统计 力学 的 研究 发 展 而 来 的 。 它 们 主要 用 于 联想 
存储 中 ， 其 存储 的 数据 能 由 相关 的 输入 数据 回忆 出 来 ， 而 无 需 用 一 个 地 址 对 其 访问 。 另 外 ， 
这 些 网 络 也 可 用 于 解决 许多 优化 问题 。 第 17 章 和 第 18 章 将 对 这 些 递 归 网 络 进行 深入 讨论 。 

希望 本 章 已 经 激 起 读者 对 神经 网 络 能 力 的 好 奇 心 ， 并 提出 了 一 些 问 丹 。 后 面 各 划 将 要 回 
E FA) — ES |] eae : 

1) 当 输入 较 多 而 判定 边界 无 法 用 图 示 方 法 表示 的 情况 下 ， 如 何 设计 多 输入 感知 机 网 络 

的 权 值 和 偏 置 值 ? (第 4 章 和 第 10 F) 
2) 如 果 要 识别 的 类 别 不 是 线性 可 分 的 ， 能 否 通 过 扩展 标准 感知 机 来 解决 这 类 问题 ? (第 
11 章 和 第 12 章 ) 

3) 当 并 不 知道 标准 模式 时 ，Hamming 网 如 何 学 习 权 值 和 偏 置 值 ? (第 14 EAR 16 章 ) 

4) 如 何 确定 Hopfield MAHA AA Bae? CB 18 章 ) 

5) 如 何 知 道 Hopfield 网 络 最 终 是 否 会 收敛 ? (第 17 章 和 第 18 Æ) 


>) el 
E3.1 本 章 设 计 了 三 个 不 同 的 神经 网 络 ， 根 据 传感器 的 三 个 测量 什 ( 外 形 、 质 地 和 权 值 ) 
来 区 分 橘子 和 苹果 。 现 假设 要 区 分 香花 和 菠 葛 ; 
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(i) 试 设 计 一 个 感知 机 来 识别 这 两 种 模式 。 

(ii) 试 设计 一 个 Hamming 网 络 来 识别 这 两 种 模式 。 

(iti) 试 设计 一 个 Hopfield 网 络 来 识别 这 两 种 模式 。 

Civ) 请 用 几 个 不 同 的 输入 模式 来 测试 你 所 设计 的 网 络 的 操作 。 并 请 讨论 每 种 网 
络 的 优点 和 缺点 。 


p> = (HE) 
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第 4 章 ”感知 机 学 习 规则 


4.1 目的 


第 3 章 曾 提出 了 一 个 问题 :“ 当 多 输入 神经 元 网 络 的 判定 边界 无 法 月 图 形 方式 表示 的 情 
况 下 ,如何 确 定 权 值 矩阵 和 偏 置 值 ? ”本 章 将 介绍 一 种 用 于 训练 感知 机 网 络 的 算法 ， 使 感知 
机 能 够 学 习 求解 分 类 问题 。 为 此 ， 这 里 将 从 介绍 什么 是 学 习 规 则 开始 ， 然 后 讨论 如 何 设 计 感 
知 机 网 络 的 学 习 规 则 。 本 章 最 后 将 对 单 层 感知 机 网 络 的 优点 和 局 限 性 进行 讨论 。 这 些 讨论 将 


”为 以 后 各 章 莫 定 基 础 。 


4.2 理论 和 实例 


1943 Æ, Warren McCulloch 和 Walter Pitts 最 早 提出 了 一 种 人 工 神 经 元 模型 | McPi43 |, 
该 模型 的 主要 特点 是 把 神经 元 输入 信号 的 加 权 和 与 其 阔 值 相 比较 以 确定 神经 元 的 输出 。 如 采 
加 权 和 小 于 阔 值 ， 则 该 神经 元 的 输出 值 为 零 ; 如 果 加 权 和 大 于 国 值 ， 则 该 神经 元 的 和 输出 值 为 
1. Warren McCulloch 和 Walter Pitts 进一步 证 明了 这 些 神 经 元 网 络 原 则 上 可 以 完成 任何 数学 
和 人 逻辑 函数 的 计算 。 与 生物 神经 网 络 不 同 的 是 ， 由 于 没有 找到 训练 这 些 网 络 的 方法 ， 所 以 必 
须 设计 出 这 些 神经 元 网 络 的 参数 以 实现 特定 的 功能 。 但 是 ， 由 于 该 模型 使 人 们 看 到 了 生物 学 
与 数字 计算 机 之 间 的 某 些 联系 ， 从 而 引起 了 人 们 的 极 大 兴趣 。 

20 世纪 50 FARR, Frank Rosenblatt 和 其 他 几 位 研究 人 员 提 出 了 一 种 称 为 感知 机 的 神经 
网 络 。 这 些 网 络 中 的 神经 元 与 McCulloch 和 Pitts 提出 的 神经 元 模型 十 分 相似 。Rosenblatt 的 
主要 贡献 在 于 引入 了 用 于 训练 神经 网 络 解决 模式 识别 问题 的 学 习 规 则 [Rose58j。 他 证 明了 只 
要 求解 问题 的 权 值 存在 ， 那 么 其 学 习 规 则 通常 会 收敛 到 正确 的 网 络 权 值 上 。 整 个 学 习 过 程 较 
为 简单 ， 而 且 是 自动 的 。 只 要 把 反映 网 络 行为 的 实例 提交 给 网 络 ， 网 络 就 能 够 根据 实例 从 随 
机 初始 化 的 权 值 和 偏 置 值 开始 自动 地 进行 学 习 。 

然而 ， 感 知 机 网 络 本 身 却 具有 其 内 在 的 局 限 性 。 在 Marvin Minsky 和 Seymour Papert 所 
著 的 《感知 机 》( Percentrons )[ MiPa69 | 一 书 中 ， 对 这 些 局 限 性 进行 了 全 面 深 入 的 分 析 ， 指 出 
感知 机 网 络 不 能 实现 某 些 基 本 的 功能 (如 蜡 或 等 )。 该 书 的 结论 曾 一 度 导致 神经 网 络 研究 陷 人 人 
低潮 。 直 到 80 年 代 ， 改 进 的 (多 层 ) 感 知 机 网 络 和 相应 学 习 规 则 的 提出 才 为 克服 这 些 局 限 性 
开辟 了 新 的 途径 ， 并 重新 唤起 人 们 对 神经 网 络 研究 的 兴趣 。 本 书 将 在 第 11 章 和 第 12 章 中 讨 
论 多 层 感 知 机 及 其 学 习 规 则 。 

当前 ， 人 们 仍然 认为 感知 机 网 络 是 一 种 重要 的 神经 网 络 。 对 于 某 些 应 用 问题 而 言 ， 这 种 
神经 网 络 仍 不 失 为 一 种 快速 可 靠 的 求解 方法 。 另 外 ， 对 感知 机 网 络 行为 的 理解 将 会 为 理解 更 
加 复杂 的 神经 网 络 黄 定 良好 基础 。 因 此 ， 这 里 讨论 感知 机 网 络 及 其 联想 党 习 规则 是 十 分 必要 
的 。 

下 面 首先 将 对 学 习 规 则 的 概念 给 出 明确 定义 ， 然 后 解释 感知 机 网 络 及 其 学 习 规 则 ， 并 讨 


论 感知 机 网 络 的 局 限 性 。 


ww ai bbt. com DO00O0O0OC0O 


BAe Bop A 35 


4.2.1 SRM 


学 习 规 则 “在 开始 讨论 感知 机 的 学 习 规则 之 前 ， 首 先 来 讨论 一 般 的 学 习 规则 。 所 谓 学 习 
规则 就 是 修改 神经 网 络 的 权 值 和 偏 置 值 的 方法 和 过 程 (也 称 这 种 过 程 是 训练 算法 )。 和 学 习 规 则 
的 目的 是 为 了 训练 网 络 来 完成 某 些 工 作 。 现 在 有 很 多 类 型 的 神经 网 络 学 习 规则 。 大 致 可 以 将 
其 分 为 三 大 类 : 有 监督 学 习 、 无 监督 学 习 和 增强 (或 分 级 ) 和 学 习 。 

有 监督 的 学 习 ”训练 集 目标 在 有 监督 学 习 当 中 ， 学 习 规 则 由 一 组 描述 网 络 行为 的 实 
例 集合 (训练 集 ) 给 出 : 

(potii ip tlt {posto! (4.1) 
其 中 ，p, 为 网 络 的 输入 ，t 为 相应 的 正确 (目标 ) 输 出 。 当 输入 作用 到 网 络 时 ， 网 络 的 实际 
输出 与 目标 相 比较 ， 然 后 学 习 规 则 调整 网 络 的 权 值 和 偏 置 值 ， 从 而 使 网 络 的 实际 输出 越 来 趣 
接近 于 目标 输出 。 感 知 机 的 学 习 规则 就 属于 这 一 类 有 监督 学 习 。 本 书 还 将 在 第 7 章 到 第 12 
章 继续 研究 有 监督 学 习 算法 。 

增强 学 习 ”增强 学 习 与 有 监督 的 学 习 类 似 ， 只 是 它 并 不 像 有 监督 的 学 习 一 样 为 每 一 个 多 
人 提供 相应 的 目标 输出 ， 而 是 仅仅 给 出 一 个 级 别 。 这 个 级 别 ( 或 评分 ) 是 对 网 络 在 某 些 输入 订 
列 上 的 性 能 测度 。 当 前 这 种 类 型 的 学 习 要 比 有 监督 的 学 习 少见 。 看 起 来 它 最 为 适合 控制 系统 
应 用 领域 (请 见 [BaSu83]，L WhSo92])。 

无 监督 的 学 习 ”在 无 监督 的 学 习 中 ,仅仅 根据 网 络 的 输入 调整 网 络 的 权 值 和 偏 置 信 ， 尼 
没有 目标 输出 。 乍 一 看 这 种 学 习 似 乎 并 不 可 行 : 不 知道 网 络 的 目的 是 什么 ， 还 能 够 训练 网 络 
吗 ? 实际 上 ， 大 多 数 这 种 类 型 的 算法 都 是 要 完成 某 种 认 类 操作 ， 学 会 将 输入 模式 分 为 有 限 的 
几 种 类 型 。 这 种 功能 特别 适合 于 诸如 向 量 量化 等 应 用 问题 。 本 书 将 在 第 13 章 到 第 16 章 讨论 
更 多 的 无 监督 学 习 算 法 。 

4.2.2 感知 机 的 结构 


在 介绍 感知 机 的 学 习 规则 之 前 ， 首 先 对 在 第 3 章 中 介绍 的 感知 机 网 络 进一步 进行 侠 究 。 
感知 机 网 络 的 一 般 结构 如 图 4-1 所 示 。 





a = hardlim (Wp+b) 


图 4-1 感知 机 网 络 


该 网 络 的 输出 由 下 式 给 出 : 
a = hardlim(Wp + b) (4.2) 
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(请 注意 : 第 3 章 使 用 的 是 hardlims 传输 函数 ， 而 不 是 hardlim 传输 函数 ， 不 过 这 并 不 
_43 ”影响 该 网 络 的 能 力 。 请 参见 习题 E4.6， 

五 (4.2) 在 开 友 感知 机 的 学 习 规 则 中 十 分 有 用 ， 利 用 该 公式 可 以 方便 地 引用 感知 机 网 络 
输出 中 的 单个 元 素 。 为 此 ， 首 先 考虑 如 下 权 值 矩阵 ; 


Wii WI2 `U Wi rR 
Wo, W2 “ Wap 

W = . ， . (4.3) 
Wsi Ws2 USR 


我 们 将 构成 W 的 第 i 个 行 同 量 定 义 为 : 


Wil 
W 

i=l . (4,4) 
WR 

据 此 ， 可 将 权 仁 矩阵 W 重 写 为 : 

1 w’ 
2 w“ 

We), (4.5) 
sw 

_44 ”这 样 就 可 以 将 网 络 输出 向 量 的 第 i 个 元 素 写 成 a = hardlim{n) 
a; = hardlim(n;) = hardlim(: w'p + };) (4.6) 
由 于 hardlim 传输 函数 (如 图 4-2) 的 定义 是 : 
a = hardlim(n) = ben iis (4.7) _ 
n= Wp+b 


所 以 ， 如 果 权 值 矩 阵 的 第 ;个 行 向 量 与 输入 向 量 的 内 积 大 于 等 于 
- 上 六 ， 该 输出 为 1， 否则 输出 为 0。 因 此 网 络 中 的 每 个 神经 元 将 输 图 42 hardlim 传输 函数 
入 空间 划分 成 两 个 区 域 。 研 究 这 些 区 域 之 间 的 边界 是 非常 有 用 的 。 
下 面 将 从 有 两 个 输入 的 单 神经 元 感知 机 开始 ， 对 此 进行 讨论 。 
1. 单 神经 元 感知 机 
考虑 如 图 4-3 所 示 的 两 个 输入 的 单 神经 元 感知 机 。 该 网 络 的 输出 由 下 陈 所 决定 ， 
a= hardlim(n) = hardlim (Wp + b) 





= hardlim(,w'p+ b) = hardlim(w, ip, + wy .p, + b) PEN 
判定 边界 ”判定 边界 由 那些 使 得 净 输 入 n 为 零 的 输入 癌 量 确定 : 
nn=IwW'p+b= wi ip; t+ Wy 2p, +b = DB (4.9) 
T ”为 了 使 该 实例 更 加 具体 ， 现 将 权 值 和 偏 置 信 设 置 为 ; 
Wi. = lwin = 1,b =-1 (4.10) 


那么 判定 边 窜 是 
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输入 两 输入 神经 元 
pi Wi 

> LE 
P2 w |b 


p l 
a = hardlim(Wp +b) 


图 43 两 输 人 / 单 输出 神经 元 感知 机 


n= wp+b = Wi 1p, + Wy 2p,+5= p,t+p,-1=0 (4.11) 

式 (4.11) 在 输入 空间 中 定义 了 一 条 直线 。 该 直线 一 侧 的 输入 回 量 相 应 的 网 络 输出 为 0; 

而 直线 上 和 另 一 侧 的 输入 回 量 相应 的 网 络 和 输出 则 为 1。 为 了 画 出 这 条 直线 ， 必 须 找到 该 直线 
穿 过 轴 p 和 p, 的 点 。 为 了 求 该 直线 在 轴 p, LNRM, > p =0: 


py =- = 了 =1 (Ap, =0 时 ) (4.12) 
为 了 求 该 直线 在 轴 p, EHRE, $ p, <0: 
m=- -TE (24 p, = 0 时 ) (4.13) 


据 此 可 得 如 图 4-4 所 示 的 判定 边界 。 





图 4-4 双 输 入 感知 机 的 判定 边界 


为 了 确定 边界 的 哪 一 边 对 应 的 输出 为 1， 我 们 只 需 检测 输入 空间 的 一 个 点 。 对 于 输入 p 
= [2 0]j ， 网 络 的 输出 为 


a= hardlim(,w' p + b) = hardlim| [1 TA 一 | = ] (4.14) 
所 以 ， 对 于 判定 边界 右上 方 的 区 域 网 络 输出 为 1。 在 图 4-4 中 用 阴影 表示 该 区 域 。 
另外 ， 也 可 用 图 解 的 方法 找到 该 网 络 相应 的 判定 边界 。 首 先 必 须 注 意 的 是 该 边界 与 1w 
垂直 (如 图 4-5 Bra): 
图 4-5 中 的 判定 边界 由 下 式 定 义 : 


\W'p +5=0 (4.15) 
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图 4-5 
对 判定 边界 上 的 所 有 点 而 育 ， 输 人 问 量 与 权 仁 向 量 的 内 积 都 是 一 样 的 。 这 意味 着 所 有 这 
些 输 入 向 量 在 权 值 站 量 上 都 有 相同 的 投影 ， 所 以 它们 必须 位 于 与 权 值 向 量 正 交 的 一 条 直线 上 
(第 5 章 将 详细 讨论 这 一 概念 )。 男 外 ， 图 4-4 阴影 区 域 中 的 任意 输入 向 量 都 有 大 于 -~ ”的 内 
积 ， 而 无 阴影 区 域 中 的 输入 向 量 则 有 小 于 - 2 ARR. Ak, RUB Btw 将 总 是 指向 神经 


元 输出 为 1 的 区 域 。 

一 旦 选择 好 具有 正确 角度 指向 的 权 值 向 量 ， 就 可 以 选择 判定 边界 上 满足 式 (4.15) 的 点 
来 计算 偏 置 值 。 

下 面 将 运用 上 述 一 些 概 念 设计 出 能 够 实现 “与 门 ” 逻 辑 功 能 的 感知 机 网 络 。 与 门 的 输入 / 
目标 对 为 : 


fe: = [ole = offe = lide om = [ole = fim -hile 


该 问题 可 以 用 图 4-6 的 方式 进行 描述 。 该 图 依据 输入 向 量 的 目标 值 显示 输入 空间 。 目 标 
值 为 1 的 输入 向 量 用 黑色 图 轿 @ 表 示 ， 而 目标 值 为 0 NRA BAS ARBOR. 

设计 的 第 一 步 是 选择 一 个 判定 边界 。 我 们 希望 有 一 条 直线 将 黑色 圆圈 和 空心 圆圈 分 隔 在 
两 个 区 域 。 能 够 实现 这 种 划分 的 线 有 无 穷 条 。 不 过 似乎 较为 合理 的 选择 是 直线 刚好 处 于 这 两 
类 输入 的 正中 (如 图 4-7 TAN) o 


ano MA 
on L 


图 4-7 
下 面 将 选择 一 个 与 判定 边界 垂直 的 权 值 向 量 。 由 于 该 权 值 向 量 可 以 是 任 章 长度 的 问 量 ， 
它 同 样 有 无 数 可 能 的 选择 。 这 里 选择 


2 
W = 2 (4.16) 


(如 图 4-7 所 示 )。 | 
最 后 ， 为 了 求解 偏 置 值 5， 可 以 从 判定 边界 上 选取 一 个 满足 式 (4.1$) 的 点 。 如 采 选 择 p 


=[1.5 0]-， 代 人 式 (4.15)， 有 : 
+b=3+b=0 = Fb =-3 (4.17) 





1.5 
iwp+ 6 = [2 21| 0 
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现在 可 以 通过 选择 上 述 的 输入 “目标 对 来 对 网 络 进行 测试 。 如 果 选 择 p, 作为 网 络 的 输 
入 ， 则 输出 为 


_ 0 
a = hardlim(iwip, + b) = hardli 区 al | -3] 
ar Im 1 P ar tint | ] | (4.18) 


= hardlim(- 1) = 0 
可 以 看 出 ， 网 络 的 实际 输出 等 于 目标 输出 1;，。 请 读者 自行 验证 ， 该 网 络 对 所 有 的 输入 虱 能 
够 进行 正确 的 分 类 。 
AN 验证 判定 边界 问题 可 使 用 Neural Network Design Demonstration Decision Bound- 
STA aries(nnd4db). 





2. 多 神经 元 感知 机 
对 于 如 图 4-1 所 示 的 多 神经 元 感知 机 而 言 ， 每 个 神经 元 都 有 一 个 判定 边界 。 第 i 个 神经 
元 的 判定 边界 定义 为 
:Wp+b:=0 (4.19) 
由 于 单 神经 元 感知 机 的 输出 只 能 为 0 或 1， 所 以 它 可 以 将 输入 向 量 分 为 两 类 。 而 多 神经 元 
感知 机 则 可 以 将 输入 分 为 许多 类 ， 每 一 类 都 由 不 同 的 输出 向 量 来 表示 。 由 于 输出 问 量 的 每 个 元 
素 可 以 取 值 0 或 1， 所 以 共有 2° 种 可 能 的 类 别 ， 其 中 $ 是 多 神经 元 感知 机 中 神经 元 的 数目 。 


4.2.3 感知 机 学 习 规则 


至 此 我 们 已 经 考察 了 感知 机 网 络 的 性 能 ， 从 现在 开始 将 讨论 感知 机 的 学 习 规 则 。 由 于 其 
学 习 规则 是 有 监督 训练 的 一 个 实例 ， 所 以 这 里 学 习 规 则 将 提供 一 组 能 够 正确 反映 网 络 行为 的 
ip, tii, |p 扣 poyto| (4,20) 
其 中 p, 是 网 络 的 输入 ，t 是 该 输入 相应 的 目标 输出 。 当 每 个 输入 作用 到 网 络 上 时 ， 网 络 的 
实际 输出 与 目标 相 比 较 。 然 后 学 习 规 则 调整 该 网 络 的 权 值 和 偏 置 值 ， 使 得 网 络 的 实际 输出 进 
一 步 靠近 目标 输出 。 

1. 测试 问题 

在 讨论 感知 机 学 习 规 则 中 ， 首 先 将 给 出 一 个 简单 的 测试 实例 ， 并 对 一 些 可 能 的 学 习 规 则 
进行 测试 ， 以 使 读者 初步 了 解 这 些 学 习 规 则 的 工作 机 理 。 在 该 测试 问题 中 ,输入 /目标 对 为 : 


ee 


此 问题 可 以 用 图 4-8 说 明 ， 图 中 目标 输出 为 0 的 两 个 输入 疝 
量 用 空心 圆圈 〇 表示 ， 目 标 输 出 为 1 的 输入 向 量 用 黑色 圆圈 @ 表 i 
7A. EPR RASH IA SE I LE PSE Se, 
过 一 定 的 观察 就 可 以 得 到 问题 的 解 。 但 是 这 种 简单 性 能 够 帮助 
读者 对 感知 机 学 习 规 则 的 基本 概念 有 一 个 直观 的 理解 。 = 
此 问题 相应 的 网 络 应 该 有 两 个 输入 和 一 个 输出 。 为 了 简化 ) 
其 学 习 规 则 的 开发 ,这 里 首先 采用 一 种 没有 偏 置 值 的 网 络 。 于 
是 网 络 只 需 调整 两 个 参数 w | 1 和 w 多 如 图 4-9 所 示 )。 医 | 4-8 
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输入 无 仿 管 值 神经 元 


Pi Wil 
P2 Wi , 
2 
a = haratim( Wp) 


图 4-9 测试 问题 的 网 络 


由 于 在 网 络 中 去 掉 了 偶 置 值 ， 所 以 网 络 的 判定 边界 必定 穿 过 坐标 轴 的 原点 (如 图 4-10 所 
示 )。 为 了 保证 简化 后 的 网 络 仍然 能 够 解决 上 面 所 给 出 的 测试 问题 ， 这 里 必须 找到 一 条 判定 
边界 将 向 量 p Ap, p, 分 开 。 从 图 中 可 以 看 出 实际 上 有 无 数 条 可 供 选 择 的 判定 边界 。 

图 4-11 给 出 了 这 些 判定 边界 相应 的 权 值 回 量 ( 记 住 权 值 回 量 与 判定 边界 垂直 )。 我 们 硕 
望 学习 规 则 能 够 找到 指向 这 些 方向 中 的 一 个 权 值 向 量 。 请 注意 : 权 值 向 量 的 长 度 无 关 暴 要 ， 
重要 的 是 它 的 方 同 。 





图 4-10 图 4-11 


2. 学 习 规 则 的 构造 

在 训练 开始 时 ， 为 网 络 的 参数 赋 一 些 初始 值 。 由 于 这 里 要 训练 的 是 一 个 两 输入 / 单 输出 
的 无 偏 置 值 网 络 ， 所 以 仅 需 对 其 两 个 权 值 的 进行 初始 化 。 这 里 将 1w 的 两 个 元 京 设 置 为 如 下 
两 个 随机 生成 的 数 ; 


Iw = [1.0 -0.8) (4.21) 
现在 将 输入 向 量 提供 给 网 络 。 开 始 用 p BEA: 
1 
a = hardlim(,w’ p, ) = hardlim | [1.0 7: 0.81] ,| (4.22) 


= hardlim(-0.6) = 0 

网 络 没有 返回 正确 的 值 。 该 网 络 当前 的 实际 输出 为 0， 而 相应 的 目标 值 与 却 为 1。 

参考 图 4-12 可 以 看 出 判决 边界 初始 的 权 值 向 量 导致 了 对 向 量 p 错误 分 类 的 判决 边界 。 
我 们 需要 调整 权 值 向 量 ， 使 它 更 多 地 指向 p ， 以 便 在 后 面 更 有 可 能 得 到 正确 的 分 类 结 采 。 

一 种 调整 方法 是 令 1w 等 于 p,。 这 种 简单 的 处 理 方 法 的 确 能 够 保证 问题 可 以 得 到 正确 的 
分 类 结果 。 然 而 非常 容易 构造 出 一 个 并 不 能 通过 这 种 简单 处 理 方法 求解 的 问题 。 图 4-13 就 
给 出 了 这 样 一 个 实例 ， 在 图 中 ， 如 果 令 权 值 向 量 直 接 指向 两 个 输出 值 为 1 的 输入 向 量 中 的 一 
个 ,那么 权 值 向 量 并 不 是 问题 的 正确 解 。 如 果 每 次 都 令 iw= p， 那 么 这 两 个 输入 回 量 中 必 有 
一 个 被 错误 划分 ， 于 是 网 络 权 值 的 求解 过 程 将 前 后 振荡 ， 永 远 得 不 到 正确 的 解 。 
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图 4-12 图 4-13 


另 一 种 调整 方法 是 将 p, Mw 上 。 这 样 会 使 ,w 的 指向 更 加 偏向 p  。 重 复 这 一 操作 ， 将 
使 w 的 指向 逐步 达到 p, 的 方向 。 这 一 规则 可 以 表述 为 ， 


WR = 1, a = 0, 则 we =w +p (4.23) 
在 上 述 问题 中 应 用 这 个 规则 ， 将 会 得 到 新 的 1w E: NO | 





we wt 十 pi = | | + | = bs (4,24) "a 
此 操作 如 图 4-14 所 示 。 
RES RA MaA E, 并 继续 对 权 什 进行 调整 。 不 断 重 复 ae] 4.14 


这 一 过 程 ， 直 到 所 有 输入 向 量 被 正确 分 类 。 
设 下 一 个 输入 向 量 是 p,。 当 它 被 送信 该 网 络 后 ， 有 


-1 
a= hardlim(,w'p,) = hardtim| (2.0 1.2]| 2 | (4.25) 


= hardlim(0.4) = 1 
p 的 目标 值 n 等 于 0， 而 该 网 络 的 实际 输出 a。 是 1。 所 以 一 个 属于 类 0 的 向 量 被 错误 划 
分 为 类 1 了 。 
既然 现在 的 目的 是 将 ,w 从 输 和 向量 所 指 的 方向 移 开 ， 因 此 可 以 
将 式 (4.23) 中 的 加 法 变 为 减法 
WR t = 0, 且 a = 1, 则 jw™** =w -p (4.26) 
如 果 在 测试 问题 中 应 用 该 规则 ， 可 求 出 


iw = Ww"? — p, = H aie l ar | (4.27) 





1.2 2 -0.8 
结果 如 图 4-15 所 示 。 
现在 将 第 三 个 输入 向 量 p, 送 入 该 网 络 : 
I oaf] 
a= hardlim(,w p;) = hardtim| (3.0 0.8] | | i (4.28) 


= hardlim(0.8) = 1 
可 以 看 出 ， 这 里 ;w 所 形成 的 判定 边界 也 错误 划分 了 p,。 在 这 种 情况 下 ， 前 面 已 经 有 了 


相应 的 处 理 规则 。 所 以 ， 按 照 式 (4.26) 对 1w 进行 修正 : 
wh owp -| 3.0 | | 0 | g bad PETT 


- 0.8 - ] 0.2 
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如 图 4-16 表明 该 感知 机 最 终 可 以 对 上 述 三 个 输入 向 量 进 行 正 确 
的 分 类 。 如 果 将 上 述 任 意 输 入 问 量 送 和 人 神经 元 ， 感 知 机 将 输出 输入 
向 量 的 正确 分 类 。 

据 此 ， 可 以 得 到 第 三 条 也 是 最 后 一 条 规则 : 如 果 感 知 机 能 够 正 
确 工作 ， 则 不 用 改变 权 值 向 量 : 

WR t = a, we’ = we? (4.30) 

下 面 是 涵盖 了 实际 输出 值 和 有 目标 输出 值 所 有 可 能 组 合 的 三 条 规 

Ky 





如 果 = 1, 且 ac = 0, Ww’ =w +p 
WR t = 0, 且 ac = 1, Mjw =w -p (4.31) 
WR t = a, Ww” = w” 
3, 统一 的 学 习 规 则 
式 (4.31) 中 的 三 条 规则 可 以 统一 表示 为 一 个 表达 式 。 首 先 将 感知 机 的 误差 定义 为 一 个 新 
的 变量 e: 
e=t-a (4.32) 
现在 可 将 式 (4.31) 中 的 三 条 规则 重 号 为 : 
WR e = 1, Mw’ =w +p 
如 果 e =-1,R,w =w” -p (4.33) 
如 果 e = 0, Mjw = w 
仔细 观察 式 (4.33) 中 的 前 两 条 规则 ， 不 难 发 现 p 的 符号 和 误差 。 的 符号 一 致 。 男 外 ， 在 第 
三 条 规则 中 ， 由 于 e =0， 所 以 p 没 有 出 现 。 所 以 可 以 将 上 述 三 条 规则 统一 成 一 个 表达 式 .: 
iw” = 1W +ep = Ww +(t-a)p (4.34) 
此 规则 可 扩展 到 偏 置 值 的 训练 过 程 中 : 可 以 将 偏 置 值 看 作 是 一 个 输入 总 是 为 工 的 权 值 即 可 。 
于 是 可 以 将 式 (4.34) 中 的 p 用 偏 置 值 的 输入 1 蔡 换 ， 得 到 感知 机 的 偏 置 值 学 习 规 则 : 
pe — be (4,35) 
4. 多 神经 元 感知 机 的 训练 
由 式 (4.34) 和 式 (4.35) 给 出 的 感知 机 规则 ， 修 改 单 神经 元 感知 机 的 权 值 向 量 。 我 们 能 把 
这 个 规则 按照 如 下 方法 推广 到 如 图 4-1 所 示 的 多 神经 元 感知 机 。 权 值 和 矩阵 的 第 i 行 用 下 式 进 
行 修改 : 


iw’ = pwd + eip (4.36) 
而 偏 置 向 量 的 第 ;个 元 素 则 按 下 式 进行 修改 : 
pee = b + e (4.37) 
感知 机 规则 “感知 机 的 学 习 规 则 可 以 方便 地 用 和 抢 阵 符号 表示 为 : 
wer — woe pi ep? (4.38) 
和 
br = bo +e (4,39) 


为 了 验证 感知 机 的 学 习 规 则 ， 再 次 考虑 第 3 章 中 的 苹果 /橘子 识别 问题 。 其 输入 /输出 原 
HHEN: 
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1 1 

oe neta] l 

_ | 一 

(请 注意 : 这 里 橘子 模式 p, 的 目标 输出 用 0 表示 ， 而 不 是 用 第 3 章 中 所 用 的 ~- 1 表示。 这 是 
因为 本 章 使 用 的 是 hardlim 传输 函数 ， 而 不 是 hardlims (ei BR. ) 

通常 ， 将 权 值 和 偏 置 值 初始 化 为 较 小 的 随机 数 。 假 设 这 里 的 初始 权 值 甜 渐 和 偏 置 值 分 别 





sł = 中 (4.40) 








为 : 
W=[0.5 -1 -0.5], b=0.5 (4.41) 


第 一 步 将 第 一 个 输入 向 量 p, 送信 网 络 : 
l 
az= hardlim (Wp, + b) = tin =] 一 os 一 | 十 as (4.42) 


= hardlim (2.5) = | 
SGT RR: 
(4,43) 


e=t,-az=O0-l=l 


权 值 更 新 为 
w= W 4 ep = [0.5 -1 -0.5]+(- DIl -1 -1 ver 
-[-0.5 0 0.5] 
偏 置 值 更 新 为 
be = bdre=0.5+(-1)=-0.5 (4.45) 


至 此 完成 了 第 一 次 和 迭代 。 
该 感知 机 学 习 规则 的 第 二 次 迭代 为 ; 


l 
a= hardlim (Wp, + b) = oa 0 vs 7 + (- 9 (4.46) 


= hardlim(-0.5) = 0 


e=t,-a=1-0=21 (4,47) 
wr = wad + ep’ 
= [-0.5 0 0.5]+(1)[1 1 -1] (4.48) 
- [0.5 1 -0.5] 
per = 64 4 ee =-0.54+12=0.5 (4.49) 


第 三 次 迭代 重新 从 第 一 个 输入 癌 量 开始 : 


-1 


] 
E _ l -0. = 0.5 
a= hardlim(Wp, + b) tin 5 1 0 s| + (4.50) 


= hardlim (0.5) = 1 


e=t,-az=0-1l=-l1 (4.51) 


new _ old T _ = = = = 
wee. Woi pep? = [0.5 1 -0.5]+(- DIl -1 -1 (4.52) 
= [-0.5 2 0.5} 
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bee = br 4 ee = 0.54(-1) =-0.5 (4.53) 

如 采 继 续 和 迭代 下 去 ， 将 会 发 现 两 个 输入 回 量 都 能 被 正确 分 类 。 算 法 已 收敛 到 了 一 个 解 

上 。 请 注意 : 最 后 得 到 的 判定 边界 和 第 3 章 中 所 得 到 的 判定 边界 并 不 一 样 ， 虽 然 两 个 判定 边 
界 都 可 以 正确 区 分 这 两 个 输入 向 量 。 


验证 感知 机 学习 规则 可 使 用 Neural Network Design Demonstration Perceptron 
Rule( nnd4pr). 





4.2.4 收敛 性 证 明 


虽然 感知 机 的 学 习 规则 非常 简单 ， 但 它 十 分 有 效 。 实 际 上 可 以 证 明 : 只 要 权 值 的 解 存 
在 ,该 规则 总 能 收敛 到 实现 期 望 分 类 的 权 值 上 。 本 节 将 给 出 如 图 4-17 所 示 的 单 神 经 元 感 郑 
机 的 学 习 规 则 的 收敛 性 证 明 。 


输入 使 极限 神经 元 





a =hardlim(,w'p+b) 


图 4-17 单 神经 元 感知 机 


这 个 感知 机 的 输出 可 由 下 式 得 到 |; 
a = hardlim(,w'p + b) (4.54) 
网 络 提供 了 正确 反映 网 络 行为 的 下 述 实例 ， 
Ipis tits [py tats" {pos to! (4.55) 
其 中 每 个 目标 输 t 取 值 0 或 1。 
1. 5 


为 了 便于 描述 证 明 过 程 ， 首 先 引入 几 个 新 的 记号 。 这 里 将 权 值 矩阵 和 偏 置 值 组 合 为 一 个 


4-15! HË: 


x = pa (4.56) 
b 
同样 ， 在 输入 向 量 中 也 增加 一 个 参数 1， 以 表示 偏 置 输入 : 
Z, = P (4.57) 


现在 可 将 神经 元 的 净 输 入 表示 为 : | 
n= Wp+b=x'z (4.58) 


那么 ， 感 知 机 的 学 习 规 则 ( 式 (4.34) 和 式 (4.3$)) 可 以 写成 
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KX = x% + eZ (4.59) 

Ree 可 以 取 1，- 1 或 0。 如 果 e =0， BARENE; WR e = 1， 则 将 输入 向 量 和 权 

值 向 量 相 加 ; 如 果 e= -1， 那 么 权 值 向 量 减 去 输入 向 量 。 如 果 只 考虑 权 什 后 量 发 生 改 变 的 
MEER, WUE ALARA 


x(k) = x(k -1) 4+2z'(k -1) (4.60) 
其 中 z'(k -1) 是 如 下 集合 中 的 一 个 元 素 : 
{21 ,2 s Zo, Zi > 一 和 oF Zo | (4.61) 


现 假设 存在 对 所 有 QO 个 输入 向 量 进行 正确 分 类 的 权 值 向 量 ， 并 将 这 一 解 记 为 x o WK 
权 值 向 量 ， 假 设 
如 果 t, = 1 那么 xz >>0 (4.62) 
以 及 
WR t = 0, 那 么 x” 2z <-8 < 0 (4.63 ) 
2. 证 明 
下 面 开始 证 明 感 知 机 收敛 定理 。 为 此 必须 找 出 算法 每 一 阶段 权 值 向 量 长 度 的 上 者 和 下 


界 。 
假设 算法 的 初始 权 值 向 量 为 0， 也 即 x(0) = 0( 这 并 不 影响 到 参数 的 普遍 性 )。 那 么 ， 达 


fk RCA 次 改变 权 值 向 量 ) 后 ， 由 式 (4.60) 得 到 


x(k) = 2 (0)+2 (1)+… + 2z'Ck - 1) (4.64) 
RIKER 次 后 的 权 值 向 量 和 最 终 的 权 值 向 量 解 x 之 间 的 内 积 ， 可 得 
x* x(k) = x* Tz (0) + x 2 (1)+ +x lz’(k—-1) (4.65) 
由 式 (4.61) ~ (4.63) A) AI 
x2 (i). > (4.66) 
所 以 
x" x(k) > kò (4.67) 
由 柯 西 - 施 瓦 兹 不 等 式 ( 见 | Brog91 |) 5] 43 | 
(x*?x(k))? < || x" 7 x(k) |? (4.68) 
其 中 
xl]? = x?x (4.69) 


Fe (4.67) A (4.683) HAA, WA LAER k RRB REA FF 


为 
I| x(k) |2 > EUNE -U (4.70) 


jx” 1? 7 xti? 
下 面 求 权 值 向 量 长 度 的 上 界 。 从 第 有 次 迭代 时 权 值 向 量 长 度 的 改变 量 人 于 : 
| x(k) |)? = x (khk)x(k) 
= [x(k —-1) +2'(k -1)]"[x(k ~-1) +2'(k -1)] (4.71) 
= x(k —-1)x(k — 1) + 2x7(k -1)z'(k-1)=+z’’(k-1)z'(k-1) 


注意 
x’ (k-1)z'(k-1) <0 (4.72) 


因为 权 值 向 量 只 有 在 前 一 输入 向 量 被 错误 分 类 时 才 会 进行 更 新 。 因 此 式 (4.71) 可 以 简化 为 
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x(k) Il? < I x(k - 1) 12+ lz’ (k - 1) 1? (4.73) 
Mt ilx(k-1) 7, ix(k-2) 上 *，… 重 复 上 述 过 程 ， 可 得 
(xC lt s z olee Wz’ Ck - 1) I? (4.74) 
& T= maxi liz (DOH, 该 上 界 可 简化 成 
| x(k) |l* < AD (4.75) 


至 此 , CRET k UAT CRY AR EAD BR EP a EAA (4.75) ) AB ASA 4.76)), 
将 其 合并 ， 求 得 


kT > la)? > MAB ae < Bd (4.76) 
由 于 大 有 上 界 意味 着 权 值 的 改变 次 数 是 有 限 的 ， 所 以 感知 机 的 学 习 规则 将 在 有 限 次 适 


REAK, 

迭代 的 最 大 次 数 ( 权 值 向 量 的 改变 次 数 ) 与 六 成 反比 关系 。 该 参数 是 输入 模式 与 判定 边 
界 的 解 人 靠近 程度 的 一 种 测度 。 这 意味 着 ， 如 果 输 入 向 量 越 舍 近 判定 边界 ,就 越 难 将 它们 分 
开 ， 就 要 迭代 更 多 次 才能 使 算法 收敛 。 

请 注意 该 证 明 是 建立 在 下 面 三 条 关键 假设 基础 之 上 的 : 

1) 问题 的 解 存在 ， 也 即 满 足 式 (4.66)。 

2) 仅 在 输入 向 量 被 错误 分 类 时 才 改 变 权 全 ， 也 即 满足 式 (4.72)。 

3) 输入 向 量 长 度 的 上 界 I FE. 

由 于 证 明 的 一 般 性 ， 所 以 感知 机 学 习 规 则 的 许多 变形 同样 也 可 以 证 明 是 收敛 的 (参考 习 
题 E4.9)。 

3. 局 限 性 

只 要 问题 的 解 存 在 ， 那 么 感知 机 学 习 规则 就 一 定 能 够 在 有 限 步 数 内 收敛 到 问题 的 一 个 
解 。 这 不 禁 又 提出 了 一 个 新 的 重要 问题 : 感知 机 能 够 求解 哪些 问题 ? 前 面 已 经 说 明 单 神经 元 
感知 机 可 将 输入 空间 分 为 两 个 区 域 ， 区 域 之 间 的 判定 边界 可 以 由 下 式 定 义 ， 

wip +b =0 (4.77) 

线性 可 分 性 ”这 是 一 个 线性 边界 ( 超 平面 )， 因 而 感知 机 可 以 对 那些 能 够 被 线性 边界 分 开 
的 输入 向 量 进行 分 类 。 这 样 的 向 量 称 为 是 线性 可 分 的 。 前 面 4.2.2 节 逻辑 与 门 实例 就 是 一 个 
二 维 线性 可 分 的 问题 ， 第 3 章 中 的 杆子 /苹果 识别 问题 则 是 一 个 三 维 线性 可 分 的 实例 。 

然而 ， 许 多 问题 并 非 是 线性 可 分 的 。 典 型 的 实例 就 是 XOR 门 ，XOR 门 的 输入 /目标 对 


fe = [ol = oHe = [2l = he = Lole hes Lio 


此 问题 可 以 用 图 4-18 中 的 最 左边 的 图 来 表示 ， 该 图 同时 还 给 出 了 另外 两 个 线性 不 可 分 
问题 。 试 在 图 4-18 中 所 有 目标 为 0 的 向 量 和 所 有 目标 为 1 的 向 量 之 间 画 一 条 直线 。 

基本 的 感知 机 是 不 能 解决 这 样 简单 问题 的 。 在 某 种 程度 上 来 说 ， 这 种 情况 导致 了 20 E 
纪 70 年 代 人 们 对 神经 网 络 研究 兴趣 的 减退 。Rosenblatt 也 曾 研 究 过 更 加 复杂 的 网 络 ， 他 党 得 
复杂 的 网 络 能 够 克服 基本 感知 机 的 局 限 性 ， 但 是 他 未 能 将 感知 机 学 习 规 则 有 效 地 扩展 到 这 样 
复杂 的 网 络 中 。 第 11 章 将 介绍 能 够 求解 任意 分 类 问题 的 多 层 感知 机 ， 以 及 能 用 于 训练 多 屋 
感知 机 的 反 传 算 法 。 


是 
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O & 
O 
一 
图 4-18 ”线性 不 可 分 问题 4-19 
4.3 小 结 
感知 机 的 结构 
输入 fie te Bie A 
w’ 
2W” 
a = hardlim( Wp + b) W= | 
sw’ 
a; = hardlim(n;) = hardlim(;w' p 十 b.) 
判定 边界 


Wp + b; = 0 
判定 边界 总 与 权 值 向 量 垂直 。 单 层 感知 机 只 能 对 线性 可 分 的 向 量 进行 分 炎 。 


感知 机 学 习 规 则 


wee ~ wed + ep? 
be” = bo +e 


其 中 e=t-a. 4-20 
4.4 例题 


P4.1 请 画 出 图 4-19 中 三 个 简单 分 类 问题 的 判定 边界 。 求 相应 于 判定 边界 的 权 值 和 偏 置 
值 。 
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图 4-19 简单 的 分 类 问题 


解 
首先 在 沾 色 数据 点 集 和 空心 数据 点 集 之 则 加 一 条 直线 将 它们 分 开 。 





下 一 步 求 解 相 应 的 权 值 和 侦 置 值 。 权 值 问 量 必须 与 判定 边界 垂直 ， 并 指向 类 IREA) 
一 方 ， 而 权 值 向 量 的 长 度 则 可 任意 选择 。 


证 ee eee ee es es ee ee er ee ee ea ae 
I 由 





Ca | = (b) | 
下 面 是 所 选择 的 一 组 权 值 向 量 : 
4-21 (a)jiw i =[-2 1]，(biw =[L0 -2], (ce) yw’ = [2 -2] 
为 求解 每 个 感知 机 的 偏 置 值 。 可 以 选择 判定 边界 上 满足 式 (4.15) 的 点 : 
1W pp +b = 0 
b =-\w'p 


据 此 可 得 如 下 三 个 偏 置 值 ; 


(a)b =-[-2 nba = 0, (b)b =-([0 ot i | = - 2， 


(c)b =- [2 -| = 6 
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现在 可 以 利用 问题 所 给 出 的 数据 点 来 验证 这 些 解 。 下 面 用 输入 向 量 p:=:[-2 2] 来 验 
证 第 一 个 网 络 : 
a= hardlim(,w'p+ b) 


: hardlim | [- 2 nt | + 0 


= hardlim(6) 
= 1 
读者 可 以 用 MATLAB 完成 对 新 数据 点 的 自动 验证 过 程 。 这 里 用 第 一 个 网 络 对 一 个 不 在 
原 问 题 中 的 数据 点 进行 分 类 : 
w=[-2 ] | ; b = 0; 
a = hardlim(w* /1;1] + b) 


a = 
p4.2 F IAT RTE RERA EREE 
等 价 问题 。 
fmm [afe = He = fol itm =| fe ote fo) = 9 
fi 


每 个 目标 t; 表明 了 相应 于 p, 的 净 输 入 是 小 于 0 还 是 大 于 等 于 0。 比 如 ， 由 于 ey 是 1， [42 
则 相应 于 p 的 净 输 入 一 定 大 于 等 于 0。 因 此 ， 可 以 得 到 下 列 不 等 式 : 
Wp, +420 
Ow,, t+2w,,+ 530 
2Wi27+5bBe0 
MwA/ AMM p, toi. ip, t}Mip,, t MAERA, TUR BFR 
sk 


2Wi,+ 020 (i) 
W,,+ 520 (ii) 
-2wi5+5< 0 (iii) 
2w,,+b <0 (iv) 


fie A ESR A EET PB SEE, EE SR BOAR SS RCO ETE AY oP 
的 分 类 问题 通常 有 无 数 个 线性 判定 边界 一 样 )。 
不 过 ， 由 于 此 问题 比较 简单 ， 所 以 可 以 通过 图 解 由 不 等 式 组 定义 的 解 空间 来 求解 。 请 注 
È w 1 仅 出 现在 (ii) 和 (ivy) 中 ， 而 wi ; 仅 出 现在 (i) 和 ( 壤 ) 中 。 所 以 ， 两 组 不 等 式 可 用 如 下 两 
个 图 来 表示 : 
任何 落 于 了 瞳 灰色 区 域 中 的 权 值 和 偏 置 值 都 可 作为 此 分 类 问题 的 解 。 其 中 一 个 解 为 : 
W-=i-2 3], b=3 4-23 
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P4.3 考虑 具有 如 下 四 类 输入 向 量 的 分 类 问题 。 这 四 类 输入 向 量 分 别 是 


sw] maL ee f 


第 3 类 :fps = | ,| =| | 第 4 类 :p= i a) 


试 设计 一 种 感知 机 网 络 求解 此 问题 。 
解 
由 于 5 个 神经 元 的 感知 机 可 对 2° 个 类 别 进行 分 类 ， 所 以 求解 此 问题 至 少 需 要 两 个 神经 
元 。 这 种 两 神经 元 的 感知 机 如 图 4-20 Ara. 
输入 硬 极限 层 





a = hardlim(Wp+b) 
图 4-20 ”两 神经 元 的 感知 机 


我 们 从 显示 在 图 4-21 的 输入 问 量 开始 。 图 中 用 空心 圆 图 表示 第 1 类 输入 癌 量 ， 用 空 
心 方 框 口 表示 第 2 类 输入 向 量 ， 用 震 色 圆圈 @ 表 示 第 3 类 输入 向 量 ， 用 黑色 方 框 加 表示 第 4 
类 输入 向 量 。 





图 4-21 例题 P4.3 的 输入 向 量 
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两 神经 元 感知 机 可 以 生成 两 条 判定 边界 。 为 了 将 输入 空间 分 为 四 类 ， 必 须要 有 一 条 判定 
边界 将 四 类 输入 分 为 两 组 ， 每 组 分 别 包 含 两 类 输入 ， 而 另 一 条 判定 边界 必须 能 够 将 各 类 输 人 
区 分 开 ( 如 图 4-22 所 示 )。 从 图 4-22 可 知 问题 的 模式 是 线性 可 分 的 。 


O 
l 
e ` O 
it 
2 
E D 
4 


图 4-22 ”例题 P4.3 的 试用 判定 边界 


权 值 向 量 必须 与 判定 边界 垂直 ， 且 指向 神经 元 输出 为 1 的 区 域 。 下 一 步 将 确定 每 条 边界 
的 哪 一 边 应 该 输出 1。 其 中 一 种 选择 如 图 4-23 所 示 ， 图 中 阴影 部 分 表示 存在 神经 元 输出 为 1 
的 输入 区 域 ， 而 最 暗 的 阴影 表示 两 个 神经 元 的 输出 都 为 1 的 输入 区 域 。 请 注意 ， 这 个 解 对 应 


的 目标 值 分 别 为 : 
miafe [le [E] aaf e- 
wale [le [a] ele [1] 
@ Q 
e ` O 
m J 
T 
图 4-23 ”例题 P4.3 的 判定 区 域 
可 以 选择 权 值 向 量 为 


et 


请 注意 : 权 值 向 量 的 长 度 并 不 十 分 重要 ， 重 要 的 是 它们 的 方向 。 它 们 必须 和 判定 边 乔 重 
直 。 现 在 可 以 在 判定 边界 上 选择 满足 式 (4.15) 的 一 个 点 来 计算 偏 置 值 : 
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至 此 完成 了 所 要 求 的 设计 。 
P4.4 请 用 感知 机 学 习 规 则 求解 如 下 分 类 问题 。 按 顺序 重复 使 用 各 个 输入 癌 量 ， 直 至 最 


426) 终 求 得 问题 的 解 ， 并 在 求 出 一 个 解 后 画 出 问题 的 图 形 。 


= [eoho = [a He [2] «off = e 
HEHA Pasa M EE : 
W(0) = [0 0], b(0)=0 


解 
首先 利用 初始 的 权 值 和 偏 置 值 计算 与 第 一 个 输入 向量 p 相应 的 感知 机 和 输出 a: 
a= hardlim (W(0)p, + 5(0)) 


= hardlin | [0 0] | ?| 4 | = hardlim(0) = 1 


感知 机 实际 输出 值 a 不 等 于 输入 向 量 p, 的 目标 值 i1， 所 以 要 按 学 习 规则 根据 误差 求解 
新 的 权 值 和 偏 置 值 。 


e=zt,;-az=Q-1l=-1 
W(i) = W(0) + ep? = [0 0] +(-1)[2 2] =[-2 -2] 
b(1) = (0) +e = 0+(-1) =-1 


然后 应 用 修改 后 的 权 值 和 偏 置 值 处 理 p,: 
a = hardlim (W(1)p, + b(1)) 


= hardlim | L- 2 -| ,| = | = hardlim(1) = 1 


这 次 感知 机 的 实际 输出 a 等 于 输入 向 量 p, 的 目标 值 t20 WIRADI I E H AA, 


不 会 改变 权 值 和 偏 置 值 : 
W(2) = W(1) 
b(2) = 6(1) 


4-27 现在 处 理 第 三 个 输入 癌 量 ， 
a = hardlim(W(2)p, + 6(2)) 


= hardlim| [- 2 -21| 72 | ~ | = hardlim(-1) = 0 
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可 以 看 出 感知 机 的 实际 输出 值 等 于 输入 向 量 p, 的 目标 值 3， 同样 不 会 修改 权 值 和 偏 置 值 。 
W(3) = W(2) 
| b(3) = b(2) 
最 后 转 到 对 输入 向 量 p, 进行 处 理 ， 
a= hardlim(W(3)p, + 6(3)) 


= hardlim| [~ 2 -| = 1 = hardlim(—1) = 0 


可 以 看 出 ， 感 知 机 当前 的 实际 输出 值 a 不 等 于 输入 向 量 p, 的 目标 值 4。 所 以 ， 感 知 机 
的 学 习 规 则 将 对 权 值 W 和 偏 置 值 b 进行 修改 : 
e=t4-a= l - = | 
W(4) = W(3) + epf = (-2 -2]4+(D)[-1 t]=(-3 -1] 


b(4) = 6(3) +e =-1+12=0 
现在 必须 再 次 检测 第 一 个 输入 向 量 p。 感 知 机 这 次 的 实际 输出 值 a 等 于 第 一 个 输入 向 量 p 


的 目标 值 Lic 
a= hardlim (W(4)p, + 5(4)) 
= pardlim [ [~ 3 - JH + o) = hardlim(- 8) = 0 
所 以 不 会 改变 权 值 和 偏 置 值 。 
W(5) = W(4) 
b(5) = b(4) 
第 一 次 输入 向 量 后， 由 于 感知 机 的 实际 输出 和 所 期 望 的 目标 输出 之 间 存 在 误差 ， 所 


以 又 需 修改 权 值 和 偏 置 值 . 
a= hardlim(W(5)p, + 6(5)) 


= hardlim| [- 3 _ | | +o) = hardlim ( - 1) = 0 


相应 地 ， 感 知 机 各 个 参数 新 的 取信 为 ， 
e=t-a=1-02=1 
W(6) = W(5) + ep? = [-3 -1]+(D[1 -2]=[-2 -3] 
6(6) = (5) +e =O0+1=1 

重复 上 述 过 程 ， 再 一 次 经 过 每 个 输入 向 量 ， 就 能 够 产生 没有 误差 的 正确 分 类 : 


a = hardlim (W(6)p, + b(6)) = hardlim| [ - 2. -= 3]| -| + 1 =- 0= t} 


a = hardlim(W(6)p, + b(6)) = hardlim|[-2 - 3]| | + | = l= t4 





a= hardlim (W(6)p, + 6(6)) = hardlim| [- 2 = 31/3 + 7 =0= t; 


] | 
a = hardlim (W(6)p, + b(6)) = hardlim| | -2  - 3]| | 十 | =l=t, 
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所 以 算法 已 经 收 伍 ， 最 终 的 解 为 : 
W=|-2 -3] b=1 


现在 就 可 以 用 图 形 的 方式 表示 训练 数据 和 判定 边界 。 判 定 边 界 由 下 式 给 定 : 


n= Wp+ d = wipit wi2p2+b =-2p1 -3p2+l=0 


令 p, = 0， 可 以 求 得 判定 边界 在 坐标 轴 p, HREN: 


b 
br =~ gt = -一 3 => (MR p, = 0) 
& p, =0， 同 样 可 以 求 得 判定 边界 再 坐标 轴 p 上 的 截 距 为 : 
Py =- z- =- = 3 en ag eo 
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求解 得 到 的 判定 边界 如 图 4-24 所 示 。 





图 4-24 例题 P4.4 的 判定 边界 
pi, 


请 注意 ; 上 述 判 定 边界 刚好 穿 过 一 个 训练 向 量 。 根 据 问题 的 定义 ， 这 是 完全 可 以 接受 
的 ， 因 为 求解 中 所 用 的 硬 极 限 孙 数 当 其 输入 为 0 时， 函数 值 为 1， 在 例题 中 ， 该 四 量 的 目标 


值 就 是 1。 
P4.5 继续 考虑 例题 P4.3 中 的 四 类 判定 问题 。 利 用 感知 机 学 习 规则 训练 一 种 感知 机 网 
络 来 求解 这 个 问题 。 


解 
如 果 采 用 与 例题 P4.3 中 相同 的 目标 向 量 ， 那 么 训练 集 为 : 


(e file = Lol He = lale = Lol 

b [21e = f he fale 

DEE [a] 
| gni 


m [2] Ha El 
假设 算法 的 初始 权 值 和 但 置信 分 别 为 : 
wo 


第 1 次 迭代 结果 为 
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a= hardlim (W(0)p, + b(0)) = hardlim [ | | ai AE) = H 


esa -as o] -i Ea 


swore lo pae n 4) 
WO) = WO) + ep? =|’ js [1 1] = 4 


b(1) = (0) +e= || 


1 
第 2URIE RRA : 





a= hardlim (W(1)p, u b(1)) = hardlim|| f > | 


e=t-a=|0) 站 at 


WO = Wil) +e =| ° M foi =| ° | 








2 


第 3 次 和 迭代 结果 为 : 


a= hardlim (W(2)p, + b(2)) = hardlim| | f “4 | A + 








e=t-acz 





W(3) = WO2) + pf = | fa {7e -|y l | 


b(3) = b(2)+e= [>| +| | -| | 


从 第 4 UGE BIS 8 次 送 代 的 过 程 中 ， 权 值 矩 阵 和 偏 置 值 向 量 均 没有 作 任 何 修改 ; 


W(8) = W(7) = W(6) = W(5) = W(4) = W(3) 
b(8) = b(7) = b(6) = b(5) = b(4) = b(3) 


-2 0 ] =l 0 
a = hardlim (W(8)p, + b(8)) = hardlim| | 1 mile +| ] | ~ H 


akan E N E Ri 


, WO = W(8) + ep? = | | -| 0 E ye]? 0 | 
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p(9) = b(8) +e =| | TEA -| | 


自 此 算法 已 经 收 诈 ， 因 为 所 有 输入 模式 将 被 正确 分 类 。 最 终 的 判定 边界 如 图 4-25 PFR 
请 读者 将 这 个 结果 与 例题 P4.3 中 设计 的 网 络 相 比较 。 





图 4-25 ”例题 P4.5 最 终 的 判定 边界 


4.5 结束 语 


本 章 介绍 了 我 们 的 第 一 个 学 习 规 则 一 一 感知 机 规则 。 感 知 机 学 习 规 则 属于 有 上 监督 学 习 类 
型 ， 其 中 学 习 规则 用 一 组 正确 反映 网 络 行为 的 实例 的 方式 提供 。 当 每 个 输入 送 入 网 络 后 ， 该 
规则 调整 网 络 参数 ， 使 网 络 的 实际 输出 逐步 接近 相应 输入 的 目标 值 。 

虽然 感知 机 的 学 习 规 则 非常 简单 ， 但 是 它 的 功能 十 分 强大 。 前 面 已 经 证 明 : 只 要 问题 的 
解 存在 ， 那 么 学 习 规 则 总 能 收敛 到 正确 的 解 上 。 感 知 机 的 弱点 并 不 在 于 它 的 学 习 规 则 ， 而 是 
在 于 其 简单 的 网 络 结构 。 标 准 的 感知 机 模型 只 能 分 类 线性 可 分 的 向 量 。 本 书 的 第 11 章 将 会 
把 感知 机 结构 扩展 到 多 层 感 知 机 ， 以 求解 任意 的 分 类 问题 。 将 在 第 11 章 介 绍 的 反 传 学 习 规 
则 可 以 用 于 训练 这 些 网 络 。 

第 3 章 和 第 4 章 使 用 了 线性 代数 的 许多 概念 ， 如 内 积 、 投 影 、 距 离 ( 范 数 ) 等 。 在 后 面 各 
章 , 读者 将 会 发 现 良好 的 线性 代数 基础 对 理解 神经 网 络 模型 是 非常 必要 的 。 第 5 章 和 第 6 章 
将 回顾 一 些 对 学 习 神 经 网 络 较为 重要 的 线性 代数 的 关键 概念 ， 目 的 是 为 深入 理解 神经 网 络 莫 
定 良好 的 基础 知识 。 
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这 是 一 本 关于 线性 系统 的 好 书 。 书 的 前 半 部 分 主要 介绍 线性 代数 知识 。 书 中 有 有 几 市 





ww ai bbt. com DODODOOODODOD 


PAR BAME JAA 57 


对 求解 线性 微分 方程 以 及 线性 和 非 线 性 系统 的 稳定 性 问题 作 了 很 好 的 讨论 。 书 中 还 有 许 
多 例题 和 习题 。 
| McPi43] W. McCulloch and W. Pitts, “A logical calculus of the ideas immanent in nervous ac- 
tivity , Bulletin of Mathematical Biophysics, Vol. 5, pp. 115-133, 1943. 
这 篇 文章 介绍 了 神经 元 的 第 一 个 数学 模型 ， 神 经 元 根据 输入 信号 的 加 权 求 和 与 国 


值 的 比较 结果 确定 它 是 否 激活 。 
| MiPa69] M. Minsky and Papert, Perceptrons, Cambridge, MA: MIT Press, 1969. 
这 是 一 本 具有 标志 性 意义 的 著作 ， 其 中 包含 了 第 一 次 对 感知 机 能 够 学 习 什 么 这 一 
问题 的 严密 研究 。 指 出 对 待 感知 机 的 正确 态度 应 该 是 既 要 解释 感知 机 的 局 限 性 ， 而 且 
要 找到 克服 这 些 局 限 性 的 方向 。 不 幸 的 是 ， 该 书 悲观 地 认为 感知 机 的 局 限 性 说 明了 神 
经 网 络 领域 是 一 条 有 死胡同。 尽管 这 不 是 真实 的 情况 ， 但 它 还 是 在 此 后 知 干 年 内 严重 影 


响 了 神经 网 络 的 研究 和 投资 。 
| Rose58j F. Rosenblatt, “The Perceptron: A probabilistic Model for information storage and or- 


ganization in the brain’, Psychological Review, Vol. 65, pp. 386-408, 1958. 
本 文 提 出 了 第 一 种 实用 的 人 工 神 经 网 络 一 一 感知 机 。 
| Rose61 | F. Rosenblatt, Principles of Neurodynamics, Washington DC; Spartan Press, 
1961. 


这 是 首 批 关于 神经 计算 的 书 之 一 。 
[ WhSo92] D. White and D. Sofge(Eds.), Handbook of Intelligent Control, New York: Van 


Nostrand Reinhold, 1992. 
该 书 收集 了 当时 一 些 关 于 控制 系统 中 的 神经 网 络 和 模糊 逻辑 的 研究 和 应 用 方面 的 


论文 。 
习题 
E4.1 考虑 下 面 定 义 的 分 类 问题 ， 


(p, - BAE - TE - KE ' Hp = | |e = 1 
plil- Ele 


(i) 画 出 能 求解 此 问题 的 单 神经 元 感知 机 结构 图 ， 并 指出 需要 多 少 个 输入 ? 
(ii) 画 出 输入 数据 点 的 分 布 图 ， 并 根据 目标 值 对 其 进行 标记 。 用 (已 中 所 给 出 的 
网 络 能 够 求解 这 个 问题 吗 ? 为 什么 ? 
E4.2 考虑 下 面 定 义 的 分 类 问题 : 


MEE eae 
P= [le oha LJe 


Ci) 设计 一 个 求解 这 个 问题 的 单 神经 元 感知 机 。 选 择 与 判定 边界 垂直 的 权 值 向 
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量 以 图 形 方式 设计 出 网 络 。 
(ii) 用 全 部 4 个 输入 向 量 验 证 求解 结果 。 
(iii) 用 求解 结果 对 下 面 4 个 输入 向 量 分 类 。 可 以 手工 计算 ， 也 本 以 用 MATLAB 计算 . 
= 1 0 | eed 
=| | pn- pm-| p -| 
(iv) 〈 记 ) 中 哪个 向 量 总 是 用 同一 方式 分 类 而 同 WW，2 的 选择 无 和 关 ?” 哪些 向 量 依赖 
FW Al b 的 选择 ?为 什么 ? 
E4.3 用 解 不 等 式 的 方法 求 习题 E4.2 的 解 ( 参 考 例题 P4.2)， 并 用 新 的 求解 结 采 重 做 习 
题 E4.2d 的 (让) 和 (十 ) 题 。( 由 于 不 能 以 成 对 的 方式 将 权 值 和 偏 置 值 分 离开 来 ， 所 
以 这 里 的 求解 过 程 要 比例 题 P4.2 复杂 。) 
E4.4 对 下 列 初始 参数 ， 应 用 感知 机 学 习 规 则 求解 习题 E4.2 的 分 类 问题 ， 并 用 新 的 求 
解 结果 重 做 习题 E4.2 Ai), GDA GDA. 
W(0) = [0 0], 8(0) = 0 
E4.5 用 数学 方法 (而 不 是 图 形 方式 ) 证 明 下 面 问题 对 于 两 输入 / 单 神经 元 感知 机 而 言 是 


pd 


fm eee Se ee 


GER: 将 输入 /目标 分 类 要 求 以 限制 权 值 和 偏 置 值 的 不 等 式 的 方式 写 出 来 。) 
E4.6 有 时 在 感知 机 网 络 中 也 会 采用 对 称 硬 极限 传输 函数 hardlims (如 图 4-26 Prax), m 

不 采用 硬 极限 传输 申 数 hardlim ， 此 时 目标 值 也 将 变 成 在 集合 [ - 1，14 中 取 值 ， 

而 不 是 在 集合 L0，1j 中 取 值 。 

(i) 写 出 分 别 将 有 序 集 [0，1] 的 数 映 射 到 有 序 集 [ - 1，1j 的 简单 表达 式 ， 以 及 
执行 逆 上 映射 的 表达 式 。 

(ii) 考虑 两 个 权 值 和 偏 置 值 都 相同 的 单 神经 元 感知 机 。 第 一 个 网 络 采 用 在 集合 
[0，1] 中 取 值 的 硬 极限 函数 hardlim ， 而 第 二 个 网 络 采用 对 称 人 硬 极 限量 数 
hardlims。 如 果 提 交 给 两 个 网 络 的 输入 都 是 p， 并 按照 感知 机 的 学 习 规 则 更 
新 输入 ， 那 么 它们 的 权 值 还 将 会 一 样 吗 ? 

(iii) 如 果 对 两 个 神经 元 的 权 值 的 改变 不 一 样 ， 那 么 它们 有 什么 不 同 ?” 为 什么 ? 

Civ) 对 采用 硬 极限 传输 函数 的 标准 感知 机 设 定 初始 权 值 和 偏 置 值 ， 试 为 来 用 对 
称 硬 极限 传输 函数 的 感知 机 构造 一 个 初始 化 方法 ， 使 得 两 个 感知 机 能 够 在 
训练 同样 的 数据 时 ， 响 应 也 一 样 。 


a = hardlims(n) 





n= Wp+b 


图 4-26 
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E4.7 下 面 定义 的 有 序 集 是 通过 测量 Fuzzy Wuzzy 动物 玩具 三 的 玩具 兔 和 玩具 能 的 重量 
和 耳 条 的 长 度 获 得 的 。 目 标 什 表 明了 相应 输入 癌 量 表示 的 是 免 子 (0) 还 是 能 (1)。 
输入 向 量 的 第 一 个 元 素 是 玩具 的 重量 ,第 二 个 元 素 是 玩具 耳 泉 的 长 度 。 


.od 
.so 
E la 
= [font [Sone 


(i) Ħ MATLAB 对 一 个 网 络 进行 初始 化 和 训练 ， 以 求解 这 个 "实际 问题 。 
(ii) 用 MATLAB 和 输入 向 量 来 验证 所 求 的 权 值 和 偏 置 值 。 
(iii) 改变 输入 向 量 ， 使 任何 解 的 判定 边界 都 不 会 通过 一 个 原始 输入 回 量 ( 即 保证 
求解 过 程 只 会 得 到 和 鲁 棒 性 判定 边界 )。 然 后 重新 训练 该 网 络 。 
E4.8 请 重新 考虑 例题 P4.3 和 P4.5 中 给 出 的 四 种 类 别 的 分 类 问题 。 假 设 将 输入 回 量 p, 


改 为 
m= 2 


(i) 这 时 问题 仍然 是 线性 可 分 的 吗 ? 请 用 图 来 表示 管 案 。 
(ii) 利用 MATLAB 工具 ， 对 一 个 网 络 进 行 初始 化 和 训练 以 求解 这 个 问题 。 请 解 


ERMAR 
(iii) 如 果 将 p, BOA p, = | 7 ， 这 时 问题 是 线性 可 分 的 吗 ? 


(iv) 根据 ( 刘 ) 题 中 给 出 的 p,， 利 用 MATLAB 工具 ， 对 一 个 网 络 进行 初始 化 和 训 
练 以 求解 这 个 问题 。 请 解释 求解 结果 。 
E4.9 下 面 是 一 种 变形 的 感知 机 学 习 规 划 : 
we = we + oep 
b™” = b” + ae 
其 中 称 a 为 学 习 速 率 。 证 明 这 个 算法 的 收敛 性 。 证 明 中 需要 对 学 习 速率 作出 限制 
吗 ? 试 作 出 解释 。 
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第 5 章 信号 和 权 值 向 量 空间 


5.1 HR 


从 第 3 草 和 第 4 章 可 以 看 出 : 将 神经 网 络 的 输入 、 输 出 以 及 权 值 矩阵 的 行 作为 向 量 看 待 
是 非常 有 好 处 的 。 这 一 章 将 详细 研究 这 些 向 量 空 间 ， 并 且 复 习 一 些 对 分 析 神 经 网 络 十 分 有 用 
的 问 量 空间 人 性质 。 这 里 首先 将 从 一 般 的 定义 开始 ， 并 将 这 些 定义 应 用 于 特定 的 神经 网 络 问题 
中 。 本 章 和 第 6 章 所 讨论 的 概念 将 被 广泛 应 用 于 本 书 其 他 各 章 。 这 些 概念 是 深入 理解 神经 网 
络 工作 原理 的 关键 。 


5.2 理论 和 实例 


线性 代数 是 理解 神经 网 络 所 必需 的 数学 知识 的 核心 。 读 者 在 第 3 章 和 第 4 章 中 看 到 了 神 
经 网 络 输入 /输出 回 量 表示 的 应 用 。 而 且 ， 不 难 发 现 将 权 值 矩阵 的 行 看 作 是 和 输入 向 量 处 于 
同一 向 量 空间 中 的 向 量 也 是 十 分 有 用 的 。 

在 第 3 章 的 Hamming 网 络 中 ， 前 馈 层 权 值 矩 阵 的 行 等 于 标准 向 量 。 实 际 上 ， 前 馈 层 的 
任务 就 是 计算 标准 向 量 和 输入 向 量 之 间 的 内 积 。 在 单 神经 元 感知 机 网 络 中 ， 也 可 看 到 判定 边 
盘 总 是 和 其 权 值 抢 阵 (一 个 行 向 量 ) 垂 直 。 

本 章 将 复习 在 神经 网 络 中 有 关 问 量 空间 的 一 些 基 本 概念 (比如 内 积 、 正 交 性 等 )。 这 里 将 
从 问 量 空间 的 一 般 定 义 开 始 ， 给 出 神经 网 络 应 用 中 常用 的 一 些 向 量 基本 性 质 。 

在 开始 前 要 说 明 一 下 向 量 的 记号 。 到 目前 为 止 所 讨论 的 向 量 都 是 实数 的 有 序 n 元 组 
( 列 )， 且 用 小 写 的 黑 正体 字母 表示 ， 例 如 ， 

x= [xl x2 … xn] (3.1) 

这 些 痢 是 "中 的 向 量 。 N” EMER n 维 欧 基 里 德 空间 。 这 一 章 将 讨论 比 欧 基 里 德 空间 
R 更 一 般 的 内 量 空间 ， 这 些 更 一 般 的 向 量 将 用 手写 体 表 示 ， 比 如 %。 同 时 本 章 还 将 说 明 这 
些 一 般 向 量 通常 是 如 何 用 一 列 数 来 表示 的 。 


5.2.1 线性 向 量 空间 


到 底 什 么 是 向 量 空间 ? 这 里 要 给 出 一 个 非常 一 般 的 定义 。 这 个 定义 看 起 来 比较 抽象 ， 我 
们 将 给 出 很 多 具体 的 实例 。 应 用 这 一 普遍 的 定义 不 仅 可 以 解决 一 大 类 问题 ， 而 且 还 可 以 使 读 
者 更 加 次 人 地 理解 这 一 概念 。 

定义 ”一 个 线性 向 量 空 间 X 是 一 组 定义 在 标量 域 尺 上 且 满 足 如 下 条 件 的 元 素 集合 ( 回 
EB): 

1) 一 个 称 为 向量 加 的 操作 和 定义 为 : 如 果 VE X(N EX N—-PocR)A ye X, BA x 

+YyEX, | 
2) X+Y=Y+ Xo 
3) Cx+y)+Z=XxX+(yYy+Z)o 
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4) 存在 惟一 一 个 称 为 零 向 量 的 向 量 0 CX, WFAN XOX, A: +0 =X 
5) 对 于 每 一 个 向 量 wEX, 在 中 只 有 惟一 一 个 被 称 为 - w WaR, ME X+ 
(-%)=0 4 

6) 一 个 称 为 向 量 乘 的 操作 定义 为 : 对 所 有 a€ F 的 标量 ,以 及 所 有 的 问 量 XE X, A 

axe Xo 

7) 对 于 任意 的 XEX Mp 1, Alx=x. 

8) 对 于 任意 两 个 标量 oC FMC, UREE VEX, Bal by) =(ab) Xo 

9) (a+ b)H= aX + bX. | 

10) a( X+ Y) = aX + aYo 

为 了 说 明 上 述 条 件 ， 这 里 将 给 出 一 些 例子 ， 并 且 确 定 它们 是 否 为 向量 空间 。 首 先 考虑 二 
维 的 欧 基 里 德 空间 只 2， 如 图 5-1 所 示 。 显 然 它 是 一 个 向 量 空间 ， 并 且 对 于 向 量 加 和 标量 习 
操作 的 标准 定义 而 言 ， 全 部 满足 上 述 10 个 条 件 。 

R? 的 子 集 又 将 如 何 ? R 的 什么 子 集 仍然 是 向 量 空间 ( 子 空间 )? 考虑 图 5-2 中 方 框 内 的 区 
R 三 。 它 可 以 全 部 满足 上 述 10 个 条 件 吗 ? 显然 该 区 域 连 条 件 1 都 不 能 满足 。 如 图 5-2 所 示 ， 
向 量 x My 在 的 区 域内 ,但 是 + y 却 可 能 不 在 XX 的 区 域内 。 从 这 个 例子 可 以 看 出 ， 任 
何 限 定 边界 的 集合 都 不 可 能 是 癌 量 空间 。 

MAR? 存在 是 向 量 空间 的 任何 子 集 吗 ? 考虑 图 5-3 中 的 直线 X( 假 设 该 线 两 端 均 为 无 限 
长 )， 那 么 这 条 线 是 向 量 空间 吗 ? 将 这 个 问题 留 给 读者 ， 请 读者 证 明 此 直线 的 确 满 足 上 述 所 
有 10 个 条 件 。 那 么 是 否 所 有 这 种 无 限 长 的 直线 都 满足 上 述 10 个 条 件 ? 实际 上 ， 所 有 经 过 坐 
标 轴 原 点 的 直线 都 满足 上 述 10 个 条 件 。 但 是 ， 如 果 直 线 不 经 过 坐标 轴 的 原点 ， 那 么 至 少 这 
种 直线 不 能 满足 第 4 个 条 件 。 


X 





图 5-] 图 5-2 图 5-3 


除了 标准 的 欧 基 里 德 空间 之 外 ， 还 有 许多 其 他 的 集合 同样 满足 向 量 空间 的 10 个 条 件 。 
例如 考虑 最 高 阶 数 小 于 或 等 于 2 的 多 项 式 集合 PP。 此 集合 的 两 个 元 紊 是 
M2 244442? 
(5.2) 
y=1+5t 
如 果 读 者 已 经 习惯 于 将 向 量 看 作 是 一 列 数字 ， 那 么 这 两 个 元 素 的 确 是 奇怪 的 向 量 。 但 是 
请 记 住 : 一 个 集合 只 要 满足 上 述 10 个 条 件 ， 就 可 以 被 认为 是 一 个 向 量 空间 。 那 么 集合 PP 
是 否 也 完全 满足 上 述 条 件 呢 ? 如 果 将 两 个 阶 数 小 于 或 等 于 2 的 多 项 式 相 加 ， 其 结 采 仍然 是 一 
个 阶 数 小 于 或 等 于 2 的 多 项 式 。 因 此 ， 集 合 P? 满足 上 述 第 1 个 和 条件。 另外， 将 一 个 标量 和 
一 个 多 项 式 相 乘 ， 是 不 会 改变 该 多 项 式 的 阶 数 的 ， 所 以 集合 P? 满足 上 述 第 6 个 条 件 。 显 
然 ， 验 证 集合 P? 满足 上 述 10 个 条 件 并 不 是 一 件 困难 的 事 ， 集合 P 的 确 是 一 个 向 量 空间 。 
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假设 Co EEL, 1] 区 间 上 的 所 有 连续 函数 的 集合 ， 该 集合 的 两 个 元 素 是 
= sin(t) 
y =e 
集合 的 另 一 个 元 素 如 图 5-4 所 未 。 f(t) 
HHP IESE A AR PEE, i ET 
连续 函数 仍然 是 一 个 连续 函数 ， 所 以 集合 Cio ij 也 是 一 个 向 量 空间 。 
这 个 集合 与 前 面 讨论 过 的 向 量 空间 不 同 ， 它 是 无 限 维 的 。 本 章 后 面 将 
定义 维 的 含义 。 


5.2.2 线性 无 天 


前 面 已 经 给 出 了 向 量 空间 的 定义 ， 从 现在 开始 将 研究 向 量 的 一 些 Al 5-4 
性 质 。 这 里 要 研究 的 第 一 个 性 质 就 是 向 量 的 线性 无 关 性 和 线性 相关 
性 。 
如 果 对 n SEI, Xa, e, Xai MA, AE n 个 标量 a1，a2，…，an( 这 nn 个 标量 


中 至 少 有 一 个 是 非 零 的 )， 满 足 
aX + aXXa + + aN, = 0 (5.4) 


(5.3) 


Ls 


那么 jw 是 线性 相关 的 。 

线性 无 关 “与 之 相反 ， 如 果 aijwi + anh, +…+arcn=0 ， 当 且 仅 当 每 个 a 均等 于 零 ， 
那么 称 | ;| 是 一 组 线性 无 关 的 癌 量 。 

注意 这 些 定义 实际 上 等 价 于 ， 如 果 一 个 向 量 集合 是 无 关 的 ， 那 么 这 个 集合 中 的 任何 癌 量 
都 不 能 表示 成 该 集合 中 其 他 向 量 的 线性 组 合 。 

作为 一 个 线性 无 关 的 实例 ， 考 虑 第 3 章 中 的 模式 识别 问题 。 两 个 标准 模式 (橘子 和 苹果 ) 


由 如 下 两 个 向 量 表 示 : 
| 
， D | l | (5.5) 
-1 








令 alp + a2p,=0, WA 














a; + Q2 0 | 
一 A] + a? - | QO (5.6) 
= a; + (- a>) 0 


但 式 (5.6) 只 有 当 cl = a2=0 时 成 立 。 所 以 pi 与 ps 线性 无 关 。 
现在 考虑 阶 数 小 于 等 于 2 的 多 项 式 空间 P 中 的 向 量 。 设 该 空间 的 中 的 三 个 向 量 分 别 是 


Sleeper, 224214 154 S141 (5.7) 
WRS a,=1, a= -1, a,=l, 那么 
A,X, + 2X0 + 43X3 = 0 (5.8) 


所 以 ， 这 三 个 向 量 线性 相关 。 
5.2.3 生成 空间 
下 面 将 定义 对 向 量 空间 的 维 数 (大 小 ) 进 行 定义 。 为 此 ， 首 先 给 出 一 个 生成 集合 的 概念 。 
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假设 X B— PRES, Alay, Ya, °°, Uni Æ X P-ReBHTR. AFTRA 
生成 X, 当 且 仅 当 对 每 一 个 Ve xX. 都 存在 一 组 标量 Nig Mog. y Noy 满足 Y= Xij + 
x222 十 "二 XmUmo 也 就 是 说 ， 如 果 空 间 中 的 每 个 向 量 都 能 写成 该 子 集中 向 量 的 线性 组 合 ， 
那么 这 个 子 集 就 能 够 生成 一 个 空间 。 

基 集 ”一 个 向 量 空间 的 维 数 是 由 生成 该 空间 所 需要 的 最 少 周 量 个 数 决 定 狼 。 由 此 导出 了 
基 集 的 概念 。 天 的 基 集 是 由 生成 蕊 的 线性 无 关 的 向 量 所 组 成 的 集合 。 任 何 基 集 包含 了 生成 
空间 所 需要 的 最 少 个 数 的 向 量 。 因 此 X 的 维 数 就 等 于 基 集 中 元 素 的 个 数 。 任 何 向 量 空间 都 
可 以 有 多 个 基 集 ， 但 每 一 个 基 集 都 必须 包含 相同 数目 的 元 素 (请 参考 [Stra80] 中 的 有 关 证 
BA )。 

以 线性 空间 P 为 例 ， 该 空间 的 一 个 可 能 的 基 是 : 

Zi =1,U, = t,&3 = (5.9) 

显然 任何 一 个 阶 数 小 于 或 等 于 2 的 多 项 式 都 可 以 通过 这 三 个 向 量 的 线性 组 合 表 示 。 但 请 
注意 ，P? 中 的 任意 三 个 线性 无 关 的 向 量 都 可 以 组 成 该 空间 的 一 个 基 。 比 如 该 空间 的 基 也 可 
以 是 : 


Uy=1, uz=l1+t, Y= l+t+t" (5.10) 


5.2.4 内 积 


从 第 3 章 和 第 4 章 对 神经 网 络 的 讨论 中 可 以 发 现 ， 内 积 是 许多 神经 网 络 癌 作 的 基础 。 这 
里 将 介绍 内 积 的 一 般 定 义 ， 并 给 出 相关 的 一 些 实例 。 

内 积 “” 任 何 满足 如 下 列 条 件 的 关于 x Ay 的 标量 函数 都 可 以 定义 为 一 个 内 积 ( 廊 ，21): 

1) (x, y)= (Y, X); 

2) (X, a, + bY) =al X, Y1) + bX, Y2); 

3) (x, X)20, HERA y SSM BY (x, x) =0: 

MFR 中 的 向 量 而 言 ， 其 标准 内 积 为 

XTy = xy, + Maya +° + Xnyn (5.11) 

但 是 这 并 不 是 惟一 可 能 的 内 积 形式 。 比 如 ， 对 定义 在 [0，1] 区 间 内 所 有 连续 函数 的 集合 
C-o 1 而 言 ， 下 面 给 出 的 标量 函数 ( 式 5.12) 就 是 它 的 一 种 内 积 形式 (请 参见 例题 P5 .6)。 


(X,Y) = [angua (5.12) 


0 


5.2.5 H 


范 数 “我们 要 定义 的 下 一 个 操作 是 范 数 ， 它 是 一 个 基于 向 量 长 度 概 念 的 党 作 。 如 果 一 个 
标量 函数 | > || 满足 以 下 一 些 性 质 ， 则 称 其 为 东 数 : 

1) |x} SO; 

2) |v] =0, ERS xv=0; 

3) 对 所 有 的 标量 a 有 | 上 ax =al] vl; 


4) yty slali y] o 
实际 上 ， 有 很 多 函数 都 可 以 满足 上 述 条 件 。 一 个 普通 的 范 数 是 基于 内 积 镑 如 下 方式 定义 
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的 : 
Ixl = (x, x)? (5.13) 
对 于 欧 基 里 德 空 间 %R" 而 言 ， 其 内 积 的 定义 为 : 
Nx |] = (xx) VY x? + x2+ 二 (5.14) 


在 神经 网 络 应 用 中 ， 通 常 要 将 输入 向 量 归 一 化 ， 也 即 每 个 输入 向 量 的 | 外 p Il = 1。 
角度 ”利用 上 述 范 数 和 内 积 的 定义 ， 可 以 对 维 数 大 于 2 的 向 量 空间 的 角度 概念 进行 推 
广 。 这 里 可 以 将 向 量 v Ay 之 间 的 角度 6 定义 为 ; 


CQ 
cosb = TTT yl (5.15) 


5.2.6 正 交 性 


既然 前 面 定 义 了 内 积 操作 ， 那 么 现在 就 可 以 介绍 正 交 性 这 一 重要 的 概念 了 。 

EZE ”如果 两 个 向 量 4，wy EEX， 满足 (9 ，%y) =0, 那么 说 这 两 个 向 量 是 正 交 的 。 

正 交 性 是 神经 网 络 中 的 一 个 重要 概念 。 在 第 7 章 中 读者 将 会 看 到 ， 当 一 个 模式 识别 问题 
的 模式 向 量 是 归 一 化 的 和 正 交 的 ， 那 么 利用 Hebb 规则 对 一 个 线性 联想 器 神经 网 络 进行 训 
练 ， 可 以 得 到 很 好 的 识别 效果 。 

除了 有 正 交 的 同 量 之 外 ， 还 可 以 有 正 交 的 向 量 空间 。 如 果 向 量 VEX EXFFSH X, 
中 的 每 一 个 同 量 ， 则 x 正 交 于 子 空间 XX， 通常 将 其 记 为 ww Ti。 如 果子 空间 XY, 中 的 每 一 
个 向 量 都 正 交 于 子 空间 X 中 的 每 一 个 回 量 ， 则 子 空间 X 正 交 与 子 空 间 X, WHA XL 
X 来 表示 。 

图 5-5 给 出 了 第 3 章 感知 机 实例 中 (参见 图 3-4) 所 用 到 的 两 个 正 交 
空间 。p; p, FHER 的 子 空间 ， 该 平面 与 p, HR? 的 另外 一 个 子 
SEDEX. po p, 平面 是 感知 机 网 络 的 判定 边界 。 在 例题 P5.1 中 ， 
读者 将 会 看 到 : 当 偏 置 值 为 零 时 ， 感 知 机 的 判定 边界 是 一 个 向 量 空 间 。 

Gram-Schmidt 正 交 化 方法 | 

线性 无 关 和 正 交 性 是 相互 联系 的 。 可 以 将 线性 无 关 疝 量 集合 转换 
为 一 个 正 交 问 量 和 集合， 而 且 两 者 所 生成 的 癌 量 空间 是 相同 的 。 这 个 标 
准 的 转换 过 程 被 称 为 Gram-Schmidt 正 交 化 方法 。 

假设 有 n 个 线性 无 关 的 向 量 y1，w，，…，%。， 如 果 希 望 通过 这 aa 
些 向 量 得 到 n PIER N, %, °°, Y%, PADUA RRR -—T 
线性 无 关 问 量 作 为 第 一 个 正 交 癌 量 : 





Vi = Yi (5.16) 
为 了 得 到 第 二 个 正 交 向 量 ， 可 以 将 v 减 去 处 于 v 方 加 上 的 分 量 。 据 此 ， 可 以 得 到 下 式 : 
Vo = Yz 一 atv (5.17) 
其 中 a 必须 选择 合适 的 值 ， 使 vi 正 交 于 v, EBR: 
(Vi, Va) = (Vi, - AMY) = (%,Y2) -alvi r) =0 (5.18) 
或 
(vis Y2) (5.19) 


d = 
(Vis V1) 
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投影 ” 因此， 为 了 得 到 y: 在 v 方 回 上 的 分 量 aaa ， 需 要求 这 两 个 回 量 的 内 积 。 也 称 
a2 是 y 在 问 量 v 上 的 投影 。 
如 果 继 续 这 一 过 程 ， 那 么 第 步 是 
Vrk = Yr- 5 lily (5.20) 


pad (Vi, Vi) 


为 了 具体 说 明 这 个 过 程 ， 请 考虑 下 面 在 空间 “中 的 线性 无 关 癌 量 : 
Bi san 
Ji = 1 |， y2 = > l 


第 一 个 正 交 问 量 为 : 


| (5.22) 


wy 


第 二 个 正 交 向 量 的 计算 如 下 所 示 : 


ae 2 o, - (5.23) 
vents [EE] la} lead Litt 


这 一 过 程 可 以 用 图 5-6 来 表示 O 


Yi Vi 





图 5-6 Gram-Schmidt 正 交 化 实例 
标准 正 交 向 量 另外 ， 还 可 以 将 向 量 v, v 分 别 除 以 其 范 数 ， 从 而 得 到 一 个 标准 正 交 
回 量 集 。 
验证 E 交 化 过 程 可 使 用 Neural Network Design Demonstration Gram-Schmiat 
(nnd5gs ) o 





5.2.7 向 量 展开 式 

请 注意 ; 前 而 用 手写 体 字 符 ( 兴 ) 表 示 一 般 的 向 量 ， 用 黑体 (x) 来 表示 咒 ” PHAR, M 
Rh" 中 的 向 量 也 可 以 用 一 列 数 的 形式 来 表示 。 本 节 将 说 明 有 限 维 空间 中 的 一 般 向 量 也 可 以 表 
示 为 一 列 数 的 形式 ， 并 且 这 些 一 般 向 量 在 某 些 方面 和 锦 * 中 的 向 量 是 等 价 的 。 

向 量 展开 式 ” 如 果 向 量 空间 X ORBEA, Mm, e, ls BAER VEX AMF 
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惟一 的 同 量 展开 式 : 
一 Daw = Xili + X9V t: “+ NV (5.24) 
所 以 ， 有 限 维 向 量 空间 中 的 任意 向 量 都 可 以 用 一 列 数 来 表示 ， 
K=[x, x « xl (5.25) 


HAY x RR or, RO TRE x 的 含义 ， 还 需要 知道 基 集 是 什么 。 对 同一 个 
ov 而 言 。 如 果 基 集 发 生 了 变化 ， 那 么 x 也 随 着 发 生变 化 。 下 一 小 节 将 对 此 进行 更 详细 的 讨 
论 。 

如 果 基 集中 的 向 量 是 正 交 的 ( 即 ([w ，w ) =0，i 关 让， 那么 可 以 非常 容易 计算 出 上 述 展 
开 式 中 的 系数 ， 只 要 在 式 (5.24) 两 边 求 与 % 的 内 积 即 可 : 


人 (45, D xm) = = Sly.) = x;( VW, T) (5.26) 
所 以 ， 上 述 展开 式 中 的 系数 由 下 式 给 出 : 
(v, X) 
i = (u,v) (5:27) 


当 基 集 中 的 向 量 不 正 交 时 ， 计 算 上 述 展开 式 中 的 系数 要 相对 复杂 一 些 。 在 下 一 小 节 中 将 
BT ALATA o 


互 迎 基 向 量 
BEDE ”如 果 需 要 向 量 展开 式 ， 而 基 集 又 不 是 正 交 的 ， 那 么 就 必须 引入 由 下 列 等 式 
Pre SC AY A SER 


(ris v) = hae (5.28) 
lts 
Hepes ol BAY, Tag. 88s Vit, 而 互 北 基 向 量 为 | ri， Poy. y Tato 
如 果 互 逆 基 向 量 已 经 表示 为 一 列 数 的 形式 (通过 向 量 展开 式 )， 并 且 洒 用 了 标准 内 积 


(r;,%;) = r; V; (5.29) 
那么 ， 式 (5.28) 可 以 用 和 矩阵 的 形式 表示 为 : 
R'B=I (5.30) 
其 中 
B=[v v … vW] (5.31) 
R = [r Fy ç = r, | (5.32) 
所 以 ， 可 以 从 下 式 求 得 R: 
R’ = B! (5.33) 
最 后 可 根据 R 的 列 求 得 互 逆 基 回 量 。 
现在 请 考虑 向 量 展开 式 
X = xX1V] 4 Xa Va +. + Xi (5.34) 
RAS. 3D HAMA ri 之 间 的 内 积 : 
(ri, X) = xil ri, Vi) + xal ri, V2) t+ Xn Tl Va) (5.35) 


根据 定义 得 
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(ris V2) = (r1, V3) =o = (T1, na) =0 
(5.36) 
(ri, n) = l 
所 以 ， 上 述 展开 式 中 的 第 一 个 系数 是 
a, = (r, X) (5.37) 
一 般 情 况 下 ， 展 开 式 中 的 第 ; 个 系数 为 
x; 《7 (5.38) (5-11 


现在 请 考虑 如 下 实例 ， 设 有 两 个 基 办 量 : 
2 2 
vf], 号 -| ?| (5,39) 


A, bin $ 表示 这 两 个 列 向 量 是 按 咒 “ PHNEEH BRAN 














T R? 中 的 标准 基 向 量 如 图 5-7 所 示 ， 分 别 为 图 中 的 向 量 s 和 s2。 M 
现 假 设 要 用 这 两 个 基 向 量 对 下 面 的 向 量 进行 展开 : / 
0 é 
x = 4 (5.40) te 
: 和 
由 于 要 按照 两 个 不 同 的 基 集 对 向 量 进行 展开 ， 所 以 这 里 必须 要 注意 5 
各 个 数学 符号 都 要 明确 地 标注 。 ead 
展开 该 向 量 的 第 一 步 是 找到 互 逆 基 问 量 : 
„Tå A 2 l 
2 1f 3 3 3 3 
at =|’ 7 = 1 2 [a el; (5.41) 
3 3 3 y 
下 面 求 展开 式 中 的 系数 : 
0 
xt = fxs = | 之 HEE 
2 
(5.42) 
1 2 j 
xy = fxs = |-4 ale 
2 
BIR BIS K 
2 -4]oy fs 
x’ = R’x° = Bx’ 过 小 二 2 (5.43) [5-12 
了 | 
于 是 有 (如 图 5-8 Ara): 


x =- $a + 1% (5.44) 


注意 现在 有 两 种 x 的 展开 式 ， 分 别 由 x M x 表示 ， 即 是 
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-VN 
图 5-8 回 量 展开 
3 l 
m = Os, 十 S32 = 一 5M 十 KS (5.45) 


由 此 可 以 看 出 ， 当 要 用 一 列 数字 表示 一 个 一 般 问 量 时 ， 必 须知 道 其 问 量 展开 式 所 采用 的 
基 集 是 什么 。 在 本 书 中 如 果 没 有 特殊 说 明 ， 那 么 假设 所 采用 的 都 是 标准 基 集 。 

式 (5.43) 说 明了 y 的 两 种 不 同 表示 方式 之 间 的 关系 : x" = B-'x”。 这 一 操作 也 称 为 基 变 
换 。 在 后 面 几 和 章 某 些 神经 网 络 性 能 分 析 中 ， 基 变换 非常 重要 。 
验证 向 量 展开 过 程 可 使 用 Neural Network Design Demonstration Reciprocal Basis 





5-13 (nnd5rb) . 
5.3 小 结 
线性 向 量 空 间 
定义 ”一 个 线性 向 量 空间 是 一 组 定义 在 标量 域 记 上 旦 满足 如 下 条 件 的 元 素 ( 问 量 ) 集 
ge 


1) 定义 一 个 称 为 向 量 加 的 操作 :如果 ve Xe 是 的 一 个 元 素 )， 且 wy EX， 那么 
N+YEFX, 

2) X+Y=Y+ Xo 

3) (x+ yYy)+Z=X+(Y+Z). 

4) 存在 惟一 一 个 称 为 零 向 量 的 向 量 0 EX, WFA VEX, 有 +O0 =m. 

5) 对 于 每 一 个 向 量 XE X, 在 扎 中 只 有 惟一 一 个 被 称 为 - 光 HB, WE X+ 
(- YY)=0。 

6) 定义 一 个 称 为 乘 的 操作 : 对 所 有 标量 oC FF 以 及 所 有 疝 量 AEX， 有 ar EX。 

7) SFR ve X Mp 1, Alv=%. 

8) 对 于 任意 两 个 标量 cE 已 和 GE 下， 以 及 任意 的 VEX, A al by) =(ab) x. 

9) (a+b) X= aX + bX. 

10) a( X + Y) = aX + ayo 


线性 无 关 
WRX n MAE X, X2, i, ,| 而 言 ， 存在 n 个 标量 ai ， A2, ""*，, an( 其 中 至 少 有 
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SATE), ， 满 足 
a Xi + aX 十 十 Cr = 0 
ABA 14; ERER. = 


生成 空间 


假设 是 一 个 线性 癌 量 空 间 ， 且 i， ，…，mnl 是 外 中 的 问 量 的 子 集 。 该 子 集 能 
够 生成 三， 当 且 仅 当 对 每 一 个 XE 外， 部 存在 一 组 标量 xi, 42, 00, Xm, WE KH HUY 


十 和 7 3 十 … ”十 Mee ae 
内 积 


任何 满足 下 列 条 件 的 关于 x 和 2 的 标量 函数 都 可 以 定义 为 一 个 内 积 ( 久 ,WY): 
DAANG ee r/c a 

2) (X, ay, + bY) = a( X,Y) + bX, Y2); 

3) (x, x)20, XHAN yv ESM BN x, x) =0。 


SEA 
如 果 一 个 标量 函数 |” || 满足 以 下 一 些 性 质 ， 则 将 其 称 之 为 范 数 ; 
1) || x ll =0; 
2) | vl =0, SAK 4 v=0; 
3) 对 所 有 的 标量 ec 有 | ax || =! alll vii; 
4) iveyvll<elavl+ig¢ll. 





向 量 之 间 的 夹 角 
向 量 y My 之 间 的 角度 6 定义 为 : 
cosh = te Y) 
~ Taxi | 
正 交 性 
如 果 两 个 向 量 入 ,WE 满足 (7 ,wy ) = 0， 那 么 说 这 两 个 向 量 是 正 交 的 。 
GranrSchmidt 正 交 化 方法 
假设 有 n 个 线性 无 关 的 向 量 yi1，ZY:，…，2。 根 据 这 些 向 量 得 到 n AIE E n, 
Vas, cane yo 
Y= Y 
Vk = Yk- $ CMe = 


r= | 


rp Ue ee Ey, 在 2 上 的 投影 。 
向 量 展开 式 


一 Si; = xi Yi 十 xna + e + Nn Vn 
i = ] 
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X EHEM A , 
a (Vi, X) 
1 (V, V) 
Bix Eo i 
E 0, 1 Æ J 
(r; Y; ) = N hed 
X; = (r; X) 
A THR HEDE, RHF: 
| B = LV Yo =~ Va | 
R = [r I2 “”… r, l 
R7 E B-! 
E AY AA A A 
5-16 x’ = B-!x 
5.4 例题 


P5.1 考虑 如 图 5-9 中 所 示 的 单 神经 元 感知 机 网 络 。 第 3 章 中 给 出 了 该 网 络 的 判定 边界 
为 (参见 式 (3.6)): W+b=0, WEHR: 奇 5 =0， 那 么 判定 边界 是 一 个 癌 量 空间 。 
输入 Re BR EAR RR 





a = hardlims(Wp + b) 


图 5-9 单 神 经 元 感 芭 机 
解 | 
该 判定 边界 如 果 是 一 个 向 量 空间 就 必须 满足 本 章 开 始 所 给 出 的 10 个 条 件 。 条 件 1 要 求 
两 个 向 量 空间 之 和 仍然 是 一 个 向 量 空间 。 令 p, Alp, 分 别 是 判定 边界 上 的 两 个 向 量 ， 它 们 一 
EWE: 
Wp, = 0, Wp, = 0 
将 上 述 两 个 等 式 相 加 ， 有 
W(p, + p,) = 0 
由 此 可 以 看 出 这 两 个 向 量 之 和 也 在 判定 边界 上 。 
显然 ， 判 定 边界 能 够 满足 条 件 2 和 条 件 3。 条 件 4 要 求 零 向 量 在 判定 边界 上 。 由 于 WO 
=0， 所 以 零 向 量 在 判定 边界 上 。 条 件 5 则 意味 着 : 如果 p 在 判定 边界 上 ， 那 么 -了 也 必须 
在 判定 边界 上 。 如 果 p 在 判定 边界 上 ， 那 么 
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Wp = 0 
在 该 式 两 边 同 时 乘 以 -1， 可 得 
W(- p) = 0 

所 以 判定 边界 也 满足 条 件 5。 5-17 

如 果 对 判定 边界 上 的 任意 p，ap 也 在 判定 边界 上 ， 那 么 判定 边界 将 满足 条 件 6。 和 条 件 
5 验证 一 样 ， 将 前 面 等 式 两 边 同 时 习 以 a, A 

W( ap) = 0 

据 此 可 知 判定 边界 也 满足 条 件 6。 

显然 ， 条 件 7 到 条 件 10 对 判定 边界 而 言 也 是 满足 的 。 所 以 该 感知 机 的 判定 边界 是 一 个 
癌 量 空间 。 

P5.2 证 明 非 负 连 续 函 数 (f(:)> 宇 0) 集 了 不 是 一 个 癌 量 空间 。 

uF 

这 个 集合 违反 了 向 量 空间 所 需要 的 几 个 条 件 。 比 如 ， 该 集合 不 存在 负 回 量 ， 从 而 它 不 能 满 
足 条 件 5。 同 样 ， 考 虑 条 件 6， 由 于 函数 f(t) = | :| 是 集合 了 的 一 个 元 素 , 令 a = -2， 则 有 

af(2) =-2|2| =-4<0 

因此 ，af(i) 不 是 集合 了 的 元 素 ， 使 条 件 6 不 能 满足 。 

PS .3 下 面 哪 一 组 向 量 是 线性 无 关 的 ? 请 找 出 每 个 集合 生成 空间 的 维 数 。 
l ] ] 
1 0 2 
l l Í 
(ii) sint cost 2cos( t + 7/4) 

l l ] 


Ci) 




















(iii) 1 1 1 


l 


—" 
—" 


解 
(i) 求解 这 个 问题 有 几 种 方法 。 首 先 假设 这 些 疝 量 是 相关 的 ， 那 么 有 
1 1 ] 0 
ajy 1 | + ay 0} + az 2 | =] 0 5-18 
1 l 1 0 


























如 果 能 够 求 得 上 式 中 的 系数 ， 且 这 些 系 数 不 全 为 0， 那么 这 些 向 量 就 是 相关 的 。 通 过 驱 
察 不 难 发 现 ，a! =2，a; = - 1，a;3 = - 工 能 够 使 上 式 成 立 ， 所 以 这 些 同 量 是 相关 的 。 
“ER Pan 个 向 量 时 ， 求 解 此 问题 的 另 一 种 方法 是 以 和 矩阵 的 形式 将 上 式 与 成 
1 1 1 0 
1 0 2 0 
1 1 1 0 
如 果 上 式 中 的 矩阵 存在 逆 ， 那 么 该 等 式 的 解 要 求 所 有 的 系数 都 是 等 。 在 这 种 情 壳 下 ， 这 


ai 


a2 




















a3 
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些 向 量 是 线性 无 关 的 。 如 果 和 矩阵 是 一 个 奇异 矩阵 (不 存在 逆 )， 那 么 必然 可 以 求 得 满足 该 等 式 
的 一 个 非 0 系数 集合 。 在 这 种 情况 下 ， 这 些 向 量 是 线性 相关 的 。 所 以 ， 可 以 以 这 些 向 量 为 列 
构造 一 个 和 矩阵。 如 果 该 矩阵 的 行列 式 为 0( 奇 异 和 矩阵 )， 那 么 这 些 向 量 就 是 相关 的 。 否 则 , € 
们 是 线性 无 关 的 。 将 矩阵 的 第 一 列 用 Laplace 展开 式 L Brog91 | 展开 ， 有 











i 0 2 1 1 ql 
1 0 2|=1] +(-1) + 1 =-2+0+2=0 
1 14 1 1 1 1 0 2 
所 以 这 些 向 量 是 相关 的 。 
另外 ， 由 于 可 以 证 明 这 三 个 向 量 中 的 任意 两 个 向 量 都 是 线性 无 关 的 ， 所 以 由 这 三 个 问 量 
张 成 的 向 量 空间 的 维 数 为 2。 


(ii) 根据 一 些 三 角 等 式 ， 有 
cosl 1 十 | = sint + eosi 
所 以 ， 这 些 向 量 也 是 相关 的 。 由 于 sine 和 cost 的 任何 线性 组 合 都 不 等 于 0， 所 以 这 些 癌 量 所 
生成 的 空间 的 维 数 是 2。 
(ii) 这 与 () 题 相似 ， 只 是 向 量 个 数 比 这 些 向 量 的 原始 空间 中 向 量 个 数 要 少 ( 只 有 WR“ 空 
闻 中 的 3 个 向 量 )。 在 这 种 情况 下 ， 由 这 3 个 向 量 所 构成 的 窍 阵 不 再 是 一 个 方 了 省 ， 所 以 不 能 
计算 其 行列 式 的 值 。 不 过 可 以 采用 称 为 Gram 的 方法 [Brog91] ， 这 种 方法 可 以 求 出 一 个 矩阵 
的 行列 式 ， 和 矩阵 的 第 i 行 第 i 列 的 元 素 是 向 量 i 和 向 量 j 的 内 积 。 这 些 向 量 是 线性 相关 的 ， 
当 且 仅 当 Gram 和 矩阵 的 行列 式 为 零 。 这 里 的 Gram 行列 式 为 : 
(x, ,X; ) (XI , Xp ) (X1: X3) 
G = (X2, X1) (X> , Xp) (Xp, X3) 


(x3 ,X; ) (X3, X7) (X3, X3) 

















其 中 
] ] ] 
l 0 2 
x=|1| X=] Bly 
l 1 ] 
所 以 
3 3 3 5 3 5 
C=|3 3 3 = 4|: ea an | ee Se 
5 3 7 
同样 ， 也 可 以 按 如 下 方法 证 明 这 些 向 量 是 线性 相关 的 : 
1 1 i 0 
1 0 2 0 
“el tal Hallo 
l 1 l 0 
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另外 ， 这 些 向 量 生成 空间 的 维 数 一 定 小 于 3。 可 以 证 明 x, lx 是 线性 无 关 的 ， 因 为 


所 以 这 些 问 量 生成 空间 的 维 数 为 2。 
P5.4 在 第 3 章 和 第 4 章 曾 经 讨论 过 单 层 感知 机 只 适用 于 识别 一 组 线性 可 分 的 模式 (参见 
图 3-3 中 的 线性 边界 ) 。 那 么 请 问 ， 如 果 两 个 模式 是 线性 可 分 的 ， 它 们 一 定 是 线性 无 关 的 吗 ” 


答 
不 是 。 这 是 两 个 没有 任何 关联 的 概念 。 比 如 ， 考 虑 如 图 5-10 所 示 的 两 输 和 人 感知 机 。 假 


WILE fr BK aad FR Pe: 
[o | | 1.5 | 
Pi = 10.5 P 11s 
如 果 将 权 值 和 偏 置 值 分 别 设 定 为 wj, = 1，w,,=1 和 4= -2， 那么 其 判定 边界 如 图 5-11 
所 示 。 显 然 ， 这 两 个 向 量 是 线性 可 分 的 。 但 是 ， 由 于 p = 3p ， 它 们 之 间 并 不 是 线性 无 关 的 。 
输入 对 称 硬 极限 神经 元 





a = hardlims(Wp + b) 




















图 5-10 ”两 输入 感知 机 图 5-11 判定 边界 
P5.5 用 Gram-Schmidt 正 交 化 方法 ， 求 如 下 基 问 量 的 正 交 集 。 
1 1 0 
y=[1], y= 0b y=] 
] 0 0 
解 
第 1 步 
l 
Y= yy; = n 
l 
B22: 
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第 3 步 : 





0 () 
一 人 [2/3 -1⁄3 -13 =~ 2/7 
| 
V3 = 1 3 = | 
- 1/3 
] [2/3 -1⁄3 -1/3]] -1⁄3 í 
1 —~ 1/3 
0 - 1⁄3 0 
1/-| 14 1/6 = 172 
0 1/6 = 1/2 

















P5.6 SRE MERI -1, 1) EMAAR Sl. UE (YY, y) 


=| oxy y (a) a 是 一 个 有 将 的 内 积 。 
证 
内 积 必 须 具有 如 下 三 个 性 质 : 
1) (x, y)= (Y, X) 
(X,Y) = jer )y(t)dt = jy \xlt)dt = (%,.X) 
2) (X, ay, + bY2) = a( X, Y1) + O(N, Y2): 


(oy ay + bY2) = farted (aants) + bya(t))d 


-1 


ajxo + E (t)Yalt)dt 


= al X, Y) + bX, Y2) 


3) (x, xX) 50, PEARS, MENA x NSB: 


(7,9) = [etnai = [ariya = 0 


当 且 仅 当 y 为 零 向 量 (在 -1<ts<1l1 区 间 内 ，Yw(:) =0) 时 ， 上 面 等 式 成 立 。 

P5.7 假设 在 前 一 例题 中 所 定义 的 向 量 空间 在 区 间 [ - 1，1] 上 定义 的 多 项 式 集合 有 两 个 
向 量 1+ t 和 1-:。 计 算 基于 这 两 个 向 量 的 一 个 正 交 向 量 集 合 。 

解 

第 1 步 : 


= Y=1+t 
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第 2 步 : 
Pa = a Go)” 

其 中 
3 1 4 
(Vi, Y2) -faa t)(1 — t)dt = a - (2)-(-4) =? 

(na) = J Dae = |! = (4)-< (0) = $ 
所 以 
p E le pn Ep 5-3! 5-23 


P5.8 将 x=[6 9 9 用 如 下 基 向 量 集 展开 : 














» W= 2 
3 
解 
第 1#, HAENEN: 
5 1 1 
3 3 3 
1 1 } i 1 Ë 
B=|1 2 3}, B!=|-7-3 -3 3 
1 3 2 1 2 1 
T3 3 73 
取 Bo ASST 
5/3 ~ 1/3 - 1/3 
TE SRH | 
- 1/3 2/3 - 1/3 
计算 展开 式 的 系数 ; 


{os 
fl 
小 


R 

和 

a 

=J 

be 

il 
QQ 
|r 
us| | 

pom 
wj! 

Yok 
| 
3 


R 
wo 
i 
m 
ry 
be 
H 
Fy 
us| 
— 
u|! 
和 
Ww [ro 
_ 
DAA 





O ON O WO A OO OO NHN 
a 
| 
—" 


w|) 
—" 
Ww {bo 
v|! 
ji 
| 
TT 
| 
| 
| 


.最 后 展开 式 写 成 5-24 
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] 1 | 
X = XIVI + %2VY + %3Y3 = di aa + | 
Í 3 


也 可 用 和 矩阵 形式 将 上 述 过 程 表示 为 : 














5 1 1 
3 3 3 6 
ay | 1 1 2 | 
x =B x=|73 7 3 3 9i ecard 
1 9 1 {Lg 1 J 

3 3 o3 


请 注意 : Mx 表示 的 是 同一 个 向 量 , 但 是 它们 分 别 是 按照 不 同 的 基 集 展开 的 (如 末 不 
特别 说 明 ， 就 假定 x 采用 的 是 标准 基 集 )。 


5.5 结束语 


本 章 给 出 了 一 些 有 关 癌 量 空间 的 基本 概念 和 相关 知识 ,它们 是 理解 神经 网 络 工作 原理 的 
关键 。 向 量 空间 所 涵盖 的 知识 很 多 ， 我 们 并 不 试图 涉及 它 的 各 个 方面 ， 而 只 是 给 出 一 些 和 神 
经 网 络 密切 相关 的 概念 。 这 里 讨论 的 问题 几乎 以 后 各 草 都 要 重新 提 到 。 

下 一 章 将 继续 研究 与 神经 网 络 密切 相关 的 线性 代数 的 主题 ， 那 里 将 主要 研究 线性 变换 和 
Fe 


参考 文献 


| Brog91 | W.L. Brogan, Modern Control Theory, 3rd Ed., Englewood Cliffs, NJ: Prentice- 
Hall, 1991. 
这 是 一 部 关于 线性 系统 的 好 书 。 该 书 前 半 部 分 主要 讨论 线性 代数 知识 。 这 本 书 有 一 
BEIT TER PR ER Tr BA RARE PERE RSE PERRET. Ah, PPLA 
许多 例题 。 
| Stra76 ] G. Strang, Linear Algebra and Its Applications, New York; Academic Press, 
1980. 
这 是 Strang 写 的 一 本 有 关 线 性 代数 的 优秀 基础 教材 。 本 书 中 给 出 了 许多 线性 代数 的 
应 用 实例 。 
习题 
ES.1 再 次 考虑 例题 P5.1。 证 明 ; A b40, 那么 判定 边界 不 是 一 个 问 量 空 间 。 
ES.2 在 例题 P5.1 中 ， 向 量 空间 的 维 数 是 多 少 ? 
ES.3 考虑 所 有 满足 条 件 f(0) =0 的 连续 函数 集合 。 证 明 : 这 些 连续 天数 集合 是 一 个 回 
量 空间 。 
ES.4 WH: 所 有 的 2x2 和 矩阵 的 集合 是 一 个 网 量 空间 。 
E5.5 在 下 列 向 量 集 合 中 ， 哪 些 是 线性 无 关 的 ? 请 求 出 每 个 向 量 集合 所 生成 的 向 量 空间 
的 维 数 。( 可 用 MATLAB 中 的 函数 rank 对 (i) 和 (iv) 的 管 案 进 行 验证 。) 
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of 


IE 


(ii) sint cost cosl 2t) 
(iii) 1+¢ l-t 
1 | 3 
l 0 4 
tiv) | 5 0 4 
l ] 3 


ES.6 请 回顾 一 下 第 3 章 中 的 苹果 和 橘子 的 模式 识别 问题 。 试 计算 每 个 原型 模式 ( 革 采 
和 橘子 ) 向 量 和 测试 输入 模式 (椭圆 形 橘子 ) 疝 量 之 间 的 夹 角 。 验 证 同 量 炎 角 表示 




















形式 的 直观 意义 。 
1 l =] 
P =|-1 |f), P =| 1 |(4R), Pa] -1 
-1 sl <] = 
E5.7 用 Gram-Schmidt 正 交 化 方法 ， 应 用 下 列 基 向 量 求 出 一 个 正 交 向 量 集合 。( 请 用 
MATLAB 验证 所 得 的 答案 。) 
1 ] ] 
=|0|，Y2=|1|， 凡 =|1 
0 0 1 




















ESs.8 考 虑 区 间 [0，1] 上 的 所 有 分 段 连续 函数 所 构成 的 向 量 空间 。 图 5-12 定义 的 基 集 
i 用 ，f2，f31 包 含 这 个 向 量 空间 中 的 三 个 同 量 。 
(i) 证 明 这 个 集合 是 线性 无 关 的 。 
(ii) 试用 Gram-Schmidt 方法 生成 正 交 和 集合。 内 积 的 定义 为 


(fag) = KOROL 


fit f(D A) 





图 5-12 习题 E5.8 WHR 
ES.9 试 按 下 面 的 基 集 展开 x= [1 2 2] 。( 请 用 MATLAB 验证 所 得 的 答案 。) 
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it, 


ES.10 KK | x- ay 达到 最 小 值 的 aOR Il x |] = (Cy, y) )o H: 对 于 ah 
这 一 取 值 ， 向 量 Z = g- ay MARY EX, H| x- ayl? + || ay ll? = 
al E ay Æx Ey 上 的 投影 )。 假 设 w 和 2 是 二 维 问 量 ， 请 画图 解释 这 
一 概念 是 如 何 与 Gram-Schmidt 正 交 化 方法 相关 的 。 
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6.1 目的 


本 章 将 接着 第 5 章 继续 论述 神经 网 络 分 析 所 需要 的 数学 基础 。 第 5 章 复习 了 有 关 问 量 空 
闻 的 内 容 ， 本 章 将 探讨 在 神经 网 络 中 所 采用 的 线性 变换 。 

正如 谈 者 在 前 面 几 章 中 所 看 到 的 ， 输 入 回 量 和 权 值 矩阵 相 滋 是 神经 网 络 执行 的 一 个 关键 
操作 。 该 操作 是 线性 变换 的 一 个 具体 实例 。 这 一 章 希 望 赋 究 一 般 的 线性 变换 及 其 基本 特点 。 
本 章 将 涉及 诸如 特征 值 、 特 征 疝 量 和 基 变 换 等 基本 概念 ， 这 些 概念 对 读者 理解 一 些 诸 如 性 能 
学 习 ( 包 括 Widrow-Hoff 规则 和 反 传 学 习 算法 ) 以 及 Hopfield 网 络 的 收 钙 特性 等 神经 网 络 关 键 
深 题 是 十 分 重要 的 。 


6.2 理论 和 实例 


我 们 知道 ,第 3 章 所 讨论 的 Hopfield 网 络 (如 图 6-1) 是 根据 下 式 同步 对 网 络 的 输出 进行 


修改 的 : 
a(t +1) = satlin(Wa(t) + b) (6.1) 


初始 条 件 递归 层 


[TN 人 


SX1 Sxi 


l 
Sx1 S 


Ne > 一 


a(0)=p  a(t+!1) =satlins(Wa(t)+b) 


a(t) 


Sx1 





图 6-1 Hopfield 网络 


MER: 在 上 式 表示 的 迭代 过 程 中 ， 每 次 迭代 操作 均 是 网 络 的 输出 和 权 值 矩阵 W 相 乘 。 
那么 ， 这 种 重复 操作 的 有 什么 作用 呢 ” 能 否 确 定 网 络 的 输出 是 最 终 收 敛 到 一 个 稳 态 值 ， 还 是 
趋 于 无 穷 ， 抑 或 是 振 葛 不 止 呢 ? 这 一 章 将 给 出 在 本 书 所 讨论 的 神经 网 络 中 解答 诸如 这 头 问题 
的 数学 基础 。 


6.2.1 线性 变换 


这 里 首先 从 一 些 基本 定义 开始 论述 。 
变换 一 个 变换 由 如 下 三 部 分 组 成 : 
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1) 一 个 被 称 为 定义 域 的 元 素 集 合 X= 1x51: 

2) 一 个 被 称 为 值 域 的 元 素 集合 Y =| Yl; 

3) 一 个 将 每 个 vE X 和 一 个 元 素 yE Y 相 联 系 的 规则 。 

线性 变换 “一 个 变换 -x 是 线性 的 ， 如 果 

1) 对 上 所 有 的 Xi, KEX, ACX + X) = AX) + (2); 

2) 对 所 有 的 VEX Mae R, 4#(av)=a4(%). 

假设 某 个 变换 x 是 在 二 维 空间 “中 将 一 个 向 量 旋 转 0 角 
(如 图 6-2 所 示 )。 图 6-3 和 图 6-4 表示 该 旋转 变换 满足 线性 变 ‘es x 
换 定 义 中 的 条 件 1， 即 如 果 希 望 将 两 个 向 量 的 和 向 量 旋 转 一 个 0 
角度 ， 可 以 首先 对 这 两 个 向 量 分 别 进行 旋转 ， 然 后 再 对 其 求 
和 。 图 6-5 表示 旋转 变换 满足 线性 变换 定义 中 的 条 件 2， 即 如 
果 希 望 将 一 个 向 量 的 伸缩 向 量 进行 旋转 ， 可 以 首先 旋转 该 向 





量 ， 然 后 再 对 其 伸缩 。 由 此 可 以 看 出 ， 旋 转变 换 是 一 个 线性 变 图 6-2 旋转 变换 
换 。 
Xit A(x +X2) 
Alax) — 
X2 = a(x) ax 
入 | A(x) a 

图 6-3 ”两 个 向 量 之 和 的 旋转 图 6-4 ”两 个 向 量 旋转 后 的 和 图 6-5 伸缩 问 量 的 变换 

6.2.2 矩阵 表示 


正如 在 本 章 的 开始 所 提 到 的 ， 和 矩阵 相 飞 是 线性 变换 的 一 个 实例 。 同 样 ， 可 以 证 明 两 个 有 
限 维 向 量 空间 之 间 的 任何 线性 变换 都 可 以 用 一 个 矩阵 来 表示 (这 和 上 一 章 所 阐述 的 在 有 限 维 
的 问 量 空间 中 的 任何 一 个 辐 量 可 以 用 一 个 数列 来 表示 是 一 样 的 )， 为 了 说 明 这 一 点 ， 本 章 将 
用 到 上 一 章 所 给 出 的 多 数 概念 。 

N, Ps t, hn | 是 癌 量 空间 X 的 一 个 基底 ，i Zi1，22，…，2zwani 是 向量 空间 Y 
MPS, ERAT VOX AYE Y, 有 


X = > xi MY = = yit; (6.2) 
设 A 是 一 个 定义 域 为 蕊 值 域 为 了 的 线性 变换 (=: XY). MA 
ACK) = Y (6.3) 
AUS 
| b s] = PS yU; (6.4) 


因为 of 是 一 个 线性 算 子 ， 所 以 式 (6.4) 可 写成 
E xA WV) = Y yu, (6.5) 
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AA lel st >(2) 是 值 域 了 中 的 一 个 元 素 ， 所 以 这 些 向 量 可 以 用 Y 的 基 向 量 的 线性 组 合 
形式 写成 


ACV) = ` aUi (6.6) 
(注意 : 上 面 展开 式 中 的 系数 o 并 不 是 随意 选取 的 。) 如 果 将 式 (6.6) 代 入 式 (6.5)， 可 得 
È aj Qs ait = Xyu (6.7) 
交换 式 (6.7) 中 求 和 的 顺序 ， 有 
i ait = X yu (6.8) 
重新 组 织 式 (6.8) ， 可 得 | 
Xa ÈX ay, 加 yi = 0 (6.9) 


因为 所 有 的 u; 形成 的 是 一 个 基 集 ， 所 以 它们 必须 是 相互 独立 的 。 这 也 意味 着 式 (6.9) 
中 每 个 和 u: 相 乘 的 系数 必须 等 于 0( 参 见 式 ($.4) ) ， 所 以 


Dy ax, = Yi (6.10) 
7= 1 
此 式 正好 是 下 面 形 式 的 矩阵 习 :; 
Gi Ql2 Alan a 4 Y1 
a3) a2 Qin x2 ¥2 
| =|. (6.11) 
aml Qm2 `U Omn Xp, Yn 


上 面 这 些 结果 表明 : ATAARE AEZ E AERA E AA g AE 
阵 表 示 。 当 该 矩阵 和 定义 域 向 量 y 的 展 式 相 乘 ， 可 以 得 到 一 个 变换 向 重 y 的 展 式 。 


Rick: 与 一 般 向 量 的 数列 表示 形式 并 不 是 惟一 的 类 似 (参见 
第 5 章 )， 一 个 变换 的 抢 阵 表示 也 不 是 惟一 的 。 An FR BL SE rE SC a BY A(x) 
值 域 的 基 集 ， 那 么 变换 的 矩阵 表示 也 会 随 之 改变 。 在 后 面 各 章 将 用 f 
到 变换 的 这 一 矩阵 表示 特性 。 8 

下 面 将 以 旋转 变换 为 例 ， 来 讨论 变换 的 矩阵 表示 ， 看 看 如 何 找 > 





到 该 变换 的 矩阵 表示 。 实 际 上 ， 其 关键 步骤 已 经 在 式 (6.6) 中 给 出 。 
我 们 必须 对 定义 域 中 的 每 个 基 向 量 进行 变换 ， 然 后 将 其 按照 值 域 中 
的 基 向 量 形式 展开 。 这 里 的 定义 域 和 值 域 相同 (X= Y=R*). Wi 图 6-6 
单 起 见 ， 对 其 采用 标准 基 Yi; = mm = si( 如 图 6-6 所 示 )。 

第 1 步 是 对 第 一 个 基 向 量 进行 变换 ， 并 且 以 基 向 量 的 形式 展开 变换 后 的 向 量 。 如 果 将 问 
E s 逆 时 针 旋 转 一 个 角度 6， 可 得 


2 
o#(s,) = cos(@) sı + sin(0) s2 = S ajs; = @115; + @2152 (6.12) 


如 图 6.7 所 示 。 可 以 看 到 展 式 中 的 两 个 系数 就 是 矩阵 表示 中 的 第 一 列 。 
第 2 步 是 对 第 二 个 基 疝 量 进行 变换 。 如 果 将 向 量 。 逆 时 针 施 转 一 个 角度 6， 可 得 


$] 
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2 
of (53) == sin(0) sı + cos(0) s- = >. Aasi = C291 + @9982 (6.13) 
tcl 


如 图 6-8 Bras. MAB Pa UR Slee eo PA, PTL, SCRE Re ze A A eR 
给 出 ， 
cos(0) — sin(@) 


7 | sin( 0) cosl 8) (6.14) 





A(s) -sin(0) $2 


cos(9) A(s,) 






0 
sin(8) saat 






了 


图 6-7 图 6-8 


BEA ALA AFT RUE (6. 1 HERR. URE THBABRREAR, RAGE 
将 会 被 旋转 一 个 角度 6。 

总 起 来 说 ， 可 以 利用 式 (6.6) 得 到 一 个 变换 的 矩阵 表示 形式 。 首 先 需 要 对 定义 域 中 的 每 
个 基 向 量 进行 变换 ， 然 后 以 值 域 的 基 癌 量 形式 对 变换 后 的 网 量 进行 展开 ， 由 每 个 展 式 的 系数 
就 可 以 得 到 变换 矩阵 中 的 一 列 。 
为 了 以 图 形 方式 研究 上 述 生 成 矩阵 表示 的 过 程 ， 请 运行 Neural Network Design 
Demonstration Linear Transformations(nnd6lt) . 





6.2.3 EFA 


前 一 节 我 们 注意 到 一 个 线性 变换 的 矩阵 表示 并 不 是 惟一 的 。 甜 阵 的 表示 依赖 于 变换 的 定 
义 域 和 值 域 所 采用 的 基 集 。 在 这 一 节 ， 将 说 明 变 换 的 矩阵 表示 是 如 何 随 基 集 改变 而 改变 的 。 

考虑 一 个 线性 变换 : oft: X> Y, Rin, n, a ~IBARSIA X 的 一 个 基 ， 
(Ui, Uo, 7, Un 是 向 量 空 间 了 的 一 个 基 。 所 以 ， 任 何 加 量 vEX 均 可 以 写成 


x = > am, (6.15) 

而 任何 向 量 YE 了 可 以 写成 T 
Y = > yi; (6.16) 

所 以 ， 如 果 T 
ALX) = Y (6.17) 


那么 ， 变 换 x 的 矩阵 表示 形式 是 
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Gil 2 Gin X] yı 
a2; an Ain || %2 y2 
: 。 (6.18) 
Um]l m2 Amn Xn Ym 
或 
Ax =y (6.19) 
现在 假设 对 X AY HAAR NER. With, te, in E X AER, iw, wo, 
e, wi ide Y 的 新 基 和 集 。 那 么 , MB YE 可 以 写成 
i = > x’ st, (6.20) 
向 量 yE Y 可 以 写成 
Y = b y iW, (6.21) 
这 将 得 到 如 下 新 的 和 矩阵 表示 
a'i @'42 Qin a y 1 
= f f Se (6.22) 
a'm] a m2 O an Aa Ym 
或 
A’(x’) = y (6.23) 
那么 ，A 和 A' 之 间 的 关系 是 什么 呢 ? 要 解答 这 个 问题 ， 必 须 找 出 两 个 基 集 之 间 的 关系 。 
首先 ， 由 于 每 个 i; 是 X 的 一 个 元 素 ， 那 么 可 以 按照 天 原先 基 集 的 形式 展开 : 
t = Dn (6.24) 
其 次 ， 因 为 每 个 w, 是 了 的 一 个 元 素 ， i Y 原先 基 集 的 形式 展开 : 
w; = Dw (6.25) 
所 以 ， 基 向 量 可 以 写 为 如 下 的 列 向 量 表示 形式 ， 
bli Wy 
to. 3 
t = ， Ww, = 0 (6.26) 
Éni Ww: 
定义 一 个 列 为 t; 的 矩阵 ; 
B,=it h ty | (6.27) 
现在 可 以 按照 矩阵 的 形式 将 式 (6,20) 写 为 : 
x= xiti + rob+ + Xnt, = Bx (6.28) 


这 个 等 式 说 明了 向 和 量 v 的 两 种 不 同 表示 之 间 的 关系 。 
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现在 ， 定义 一 个 列 为 W; EA) Fe 


B, = [WwW Ww - Ww) (6.29) 
据 此 ， 也 可 以 按照 矩阵 的 形式 将 式 (6.21) 与 成 
y = B,y (6.30) 


这 个 等 式 说 明了 回 量 y 的 两 种 不 同 表示 之 间 的 关系 。 
现在 将 式 (6.28) 和 式 (6.30) 代 人 式 (6.19)， 可 得 


AB,X = B,y (6.31) 
如 果 我 们 用 Bz 乘 以 式 (6.31) 的 两 边 ， 有 

B, AB, |x’ = y (6.32) 
基 变 换 ”比较 式 (6.32) 和 式 (6.23) 可 以 得 到 如 下 基 变 撞 的 操作 : 

A’ = [B.'AB, | (6.33) 


相似 变换 ”这 个 重要 结果 描述 了 一 个 给 定 线性 变换 的 任何 两 个 矩阵 表示 之 间 的 关系 ， 该 
变换 称 为 相似 变换 ( similarity transform ) | Brog91 | .此 式 在 以 下 各 章 中 十 
分 有 用 。 如 果 选 择 比 较 合 适 的 基 办 量 ， 那 么 吏 可 以 获得 一 个 充分 反映 
线性 变换 特点 的 和 矩阵 表示 。 这 个 问题 将 在 下 一 节 讨 论 。 g 

作为 一 个 基 集 变换 的 实例 ， 让 我 们 重新 看 看 上 节 所 给 出 的 向 量 旋 
转 实 例 。 在 该 实例 中 ， 利 用 标准 的 基 集 i s1，s2| 得 到 了 一 个 矩阵 表示 。 
现在 利用 基 1 ，i2| 找 到 一 个 新 的 矩阵 表示 (如 图 6-9 所 示 )。 注 意 : 在 
该 实例 中 ， 定 义 域 和 值 域 采 用 的 是 同一 个 基 集 。 

第 一 步 是 根据 式 (6.24) 和 式 (6.25)， 按 照 标准 基 集 的 形式 对 志和 图 6-9 BERKA 
ty 进行 展开 。 观 察 图 6-9 AA: 





ti = 5; + 0.58 (6.34) 
to = - 8) + 8 (6.35) 
所 以 ， 可 以 将 与 Alt, 写成 
=| n= [0 (6.36) 
0.5 l 
MÆ, FT LAR BE 
1 -1 
B = [u,b] = | "| (6.37) 
同时 ， 由 于 这 里 对 变换 的 定义 域 和 值 域 都 是 采用 相同 的 基 集 ， 所 以 
B, =B, = | a (6.38) 
0.5 1 


现在 ， 可 以 根据 式 (6.33) 计 算 新 的 矩阵 表示 : 
2/3 2⁄3 | | cos@ — | | L sl | 
- 1/3 2/73 0.5 1 


| 1/3sin@ + cosb — 4/3sin@ | 
5/6sin@ — 1/3sin9 + cos 


sin8 cos@ 


A’ = [B;/AB,] = | 
(6.39) 
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作为 特例 ， 不 妨 选 取 9= 30°, THA 


hoon 三 0-667 | 
”= (6.40) 
0.417 0.699 
和 

[0:36 = | 

= (6.41) 
0.5 0.866 

为 了 检验 这 些 矩阵 是 否 正确 ， 假 设 和 > - | | 相对 应 的 测试 向 量 是 ， 

x = | | (6.42) 


0.5 
GES: xA x RANA BEATER PNR 1 MA, BRIG Wid el Be 





0.866 -0.5 ] 0.616 
y = Ax = | | | z | (6.43) 
0.5 0.866)10.5 0.933 
该 向 量 应 该 和 如 下 向 量 相 对 应 : 
1.033 - 0.667 |1|1 1 .033 
v= Ax =| Hol = loss! (6.48) 
0.416 0.699 0 0.416 


那么 ， 如 何 确定 y 和 y 的 确 是 相对 应 呢 ? 它们 是 以 不 同 基 集 的 形式 来 表示 同一 个 回 量 
Y, y 采用 的 基 是 ii， Sots Y 采 用 的 基 是 ;与 ， toto 在 第 5 aH, A FA EA AY) HE [BHR 
变换 转换 成 男 一 个 变换 (请 见 式 (5.43))。 利 用 此 概念， 可 得 


5 Pa has 
y = By = 
0.5 1 0.933 


| 2/3 al oe | _ [2:933 


_ 1/3 2/3 1L 0.933 0.416 
此 式 正好 验证 了 前 面 的 结果 。 这 些 向 量 表示 在 图 6-10 中 。 从 图 中 
可 以 看 出 ,由 式 (6.43) 和 式 (6.44) 得 到 y M 两 种 表示 形式 是 合 图 6-10 
理 的 。 
6.2.4 特征 值 和 特征 向量 
本 节 将 对 线性 变换 的 特征 值 和 特征 向 量 这 两 个 关键 性 质 进 行 讨 论 。 这 些 性 质 的 知识 将 使 
我 们 能 回答 有 关 神 经 网 络 性 能 的 一 些 关 键 问题 ， 比 如 在 本 章 开始 所 提 到 的 Hopfield 网 络 的 稳 


定性 。 

特征 值 “特征 向 量 这 里 首先 给 出 特征 值 和 特征 向 量 的 定义 。 考虑 一 个 线性 变换 : A: 
人 二 对 (定义 域 和 值 域 相同 )。 分 别称 满足 下 式 的 那些 不 等 于 0 的 问 量 ZE X 和 标量 A 分别 是 
特征 向 量 和 特征 值 ; 





BEG) =Z (6.46) 
请 注意 ， 特 征 向 量 的 表示 问题 ， 因 为 如 果 2 满足 式 (6.46)， 那 么 az 同样 也 满足 该 式 ， 由 此 
可 知 ， 特 征 向 量 实际 上 并 不 是 一 个 真正 的 向 量 ， 而 是 一 个 向 量 空间 。 
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所 以 ， 给 定 变换 的 一 个 特征 向 量 表示 一 个 方向 ， 当 对 任何 取 
该 方向 的 向 量 进行 变换 时 ， 它 们 都 将 继续 指向 相同 的 方向 ， 仅 仅 是 ‘oa 
按照 特征 值 对 向 量 的 长 度 进行 缩放 。 举 例 来 说 ， 再 次 考虑 前 几 节 中 名 
提 到 的 旋转 实例 (如 图 6-11 所 示 )。 现 在 要 问 : 是 不 是 任何 向 量 被 
旋转 30" 之 后 ， 它 们 还 是 指向 相同 的 方向 ”显然 不 是 ， 这 是 因为 变 X 
换 没 有 实数 特征 值 的 情况 。 在 后 面 将 会 看 到 ， 如 果 人 允许 复数 形式 的 
特征 值 ， 那 么 该 变换 存在 两 个 特征 值 。 5, 

那么 ， 又 如 何 计算 特征 值 和 特征 向 量 呢 ? 假设 现在 选择 了 n 
维 向 量 空间 X 的 一 个 基 ， 那 么 式 (6.46) 的 矩阵 表示 可 以 写成 ee Pare 


Az = 2 (6.47) 
或 
[A —-AI]z = 0 (6.48) 
这 表示 [A -AMAF REREKAI, BIER A REITIR 0: 
[人 A-xXUI = 0 (6.49) 


这 个 行列 式 是 一 个 n 阶 多 项 式 ， 所 以 式 (6.49) 通 常 有 n 个 根 ， 其 中 一 些 根 可 能 是 复数 ， 


也 可 能 有 些 根 是 重复 的 。 
现在 ， 重 新 看 看 前 面 的 旋转 实例 。 如 果 采 用 标准 基 集 ， BASRH ME E 





_ | = me) (6.50) 
sinô  cos@ 
可 以 将 式 (6.49) 写 成 
pone — sing | 0 (6.51) 
sin cosĝ 一 入 
或 
A — 2Xcos0 + ((cos@)? + (sin8)*) = X — 2xcosg+1 = 0 (6.52) 
该 等 式 的 根 是 
A, = cosĝ + jsinĝ, àz = cos0 - jsinl (6.53) 


所 以 ， 正 如 前 面 所 预计 的 ， 该 变换 没有 实数 形式 的 特征 值 ( 如 果 sind #0). Mth BLA, 
如 果 任 何 实 向 量 被 变换 之 后 ， 它 将 指向 一 个 新 的 方 同 。 
考虑 另外 一 个 矩阵; 


9 i | (6.54) 


0 -2 
为 了 找到 其 特征 值 ， 必 须 求解 
by || =0 (6.55) 
0 a ee 
或 
743042 = (A41)(A +2) =0 (6.56) 


求解 式 (6.$6) ， 得 到 特征 值 
A, =-1l, Ag =-2 (6.57) 
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为 了 找到 其 特征 回 量 ， 必 须 对 式 46.48) 求 解 ， 这 里 就 是 求解 


a 
0 tuk 1 lo (6.58) 


分 别 用 Ay 和 Ag 对 该 式 进行 两 次 求解 。 首 先 将 A TRA ZK (6.58) 


mc |, WE | 四 (6.59) 


或 
Zy = 0, 对 211 没有 任何 限制 (6.60) 
所 以 第 一 个 特征 问 量 是 
l 
Z = B (6.61) 
或 者 是 该 向 量 的 任意 标量 倍 。 将 代入 式 (6.58)， 可 得 
p | sl | Z12 -| (6 
0 ol" ~lo ol] z | lo ik 
或 
Zy» =- Ly (6.63) 
所 以 第 二 个 特征 问 量 是 
或 者 是 该 向 量 任 意 的 标量 倍数 。 
下 面 两 式 验 证 了 上 述 结果 的 正确 性 ; 
~ | 1 l =] 1 
an =|, tol = bo] = lo! = a 
si l 1 - 2 1 
wj [a] ea 


为 了 测验 一 下 对 特征 向 量 的 理解 ， 可 以 运行 Neural Network Design Demonstra- 
tion Eigenvector Game (nnd6eg)。 





对 角 化 

如 果 某 个 变换 有 n 个 不 同 的 特征 值 ， 则 可 以 保证 得 到 该 变换 n 个 线性 无 关 的 特征 问 量 
[Brog91]。 因 此 特征 向 量 组 成 变换 的 向 量 空间 的 一 个 基 集 。 现 在 用 特征 向 量 作为 基 问 量 来 求 
出 前 面 变换 ( 式 (6.54)) 的 和 矩阵。 从 式 (6.33) 可 得 


wm lo do allo alio 2) 0 


对 负 化 ”注意 ， 这 是 一 个 对 角 和 矩阵 ， 特 征 值 处 于 对 角 线 上 。 实 际 上 ， 这 并 不 是 一 个 巧 
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合 , 一旦 变换 有 不 同 的 特征 值 ， 那 么 就 能 通过 将 特征 向 量 作为 基 回 量 的 方法 将 该 变换 的 矩阵 
表示 对 角 化 。 可 以 将 这 种 对 角 化 过 程 总 结 如 下 : 


设 | 
B=[z z >e za] (6.68) 
EP iz), ty ts ni 是 一 个 矩阵 A 的 特征 回 量 。 然 后 求 
入 | 0 sian 0 
0 A oot 0 
[B- ABj =|... (6.69) 
0 0 … 入 


其 中 1A1 ‘ 人 2 ， my hn | FEE A 的 特征 值 。 
这 个 绪 某 对 后 面 各 章 分 析 知 干 神经 网 络 的 性 能 是 十 分 有 用 的 。 


6.3 sa 


变换 

一 个 变换 由 如 下 三 部 分 组 成 ; 

1 ) 一 个 被 称 为 定义 域 的 元 素 集 合 X= | 2 

2) 一 个 被 称 为 值 域 的 元 素 集 合 Y = | ;| ; 

3) 一 个 将 每 个 元 素 xE X 映射 到 元 素 wy.EY 的 规则 。 
线性 变换 


一 个 变换 of 是 线性 的 ， 如 果 : 
1) 对 所 有 的 x A,X, AXi + Xa) = AX) +A X); 
2) 对 所 有 的 we X Mac R, Alax) =al x)o 


和 矩阵 表示 


IM, na, +, | 是 向 量 空间 X HDE, Ui Ua t, Un 是 加 量 空间 了 的 
一 -个 基 。<-z 是 一 个 定义 域 为 了 和 值 域 为 Y 的 线性 变换 


ACX) = Y 
那么 变换 的 和 矩阵 表示 中 的 系数 可 以 由 下 云 获 得， 
ALV) = > ajui 
基 变 换 
B, = | ty bo tn | 
B, = LW, Ww °° wW )] 


A 一 [B;, AB, | 
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特征 值 和 特征 向 量 
Az = 2 
IIA- Ai] = 0 
对 角 化 
B= iz zz, Z, | 


FOP iz), Zo, 7, aie TAH A 的 特征 向 量 。 
| Ài 0 … 0 


A> eee 0 
BAB)! = i 


6.4 例题 
P6.1 考虑 图 6-12 FESE RRAN, AA a E a h e E 
变换 是 线性 变换 吗 ? 


输入 线性 层 





a = purelin(Wp +b) 
图 6-12 单个 神经 元 感知 机 


解 
网 络 的 上 映射 公式 是 
a= Ap) = Wp+b 
为 了 使 这 个 变换 是 线性 的 ， 它 必须 满足 : 
1) 4(p, +p) = 4p) + (p); 
2) (ap) = a¥(p). 
首先 测试 上 面 的 第 一 个 条 件 。 
A(p, + Pp) = W(p, + p,) + b = Wp, + Wp, + b 


将 其 和 

A(p,) + (p) = Wp, + b+ Wp, +b = Wp, + Wp, + 2b 
比较 。 显 然 ， 仅 当 b = 0 时 ， 上 述 两 个 表达 式 相 等 。 所 以 ,尽管 该 网 络 具 有 一 个 线性 传输 哺 
数 ， 但 是 它 执 行 的 是 一 个 非 线性 变换 。 我 们 称 这 种 特殊 类 型 的 非 线性 变换 为 仿 射 变换 。 


6-17 | 
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P6.2 在 第 5 章 讨 论 过 投影 ， 投 影 是 一 个 线性 变换 吗 ? 


解 
向 量 9 到 向 量 2 上 的 投影 定义 为 
Y = AX) = aD y 


BRO, (x, r) Æ vA YAR, 
现在 需要 检查 一 下 这 个 变换 是 否 满 足 线 性 特性 的 两 个 条 件 。 首 先 检 查 条 件 1): 


(Xi + Xa V) KLV + aT) (WN), OY) 
(VV)  “ (v, v) = (w, a) t (4,9) 


= AXI) 十 AX) 
(这 里 使 用 了 内 积 的 线性 特性 。) 现 在 检查 条 件 2): 
(ax, ¥) ANY), g(r) 


Y = A(ax) = (v,a = (w, n) 
由 此 可 以 看 出 ， 投 影 是 一 个 线性 操作 。 
P6.3 SRR? 中 将 向 量 相对 于 直线 xi; + x. = 0 进行 反射 操作 的 变换 x (QA 6-13 所 
示 )。 请 求 出 和 人 锦 “中 标准 基 集 相关 的 该 变换 的 矩阵 。 





ACN, + Xa) = 


$2 


A(x) 
图 6-13 ”反射 变换 
解 
L6-18 | 求 一 个 变换 的 矩阵 的 关键 已 经 在 式 (6.6) 中 纵 出 : 
ALV) = z aUi 
这 里 需要 对 定义 域 中 的 每 个 基 向 量 进行 变换 ， 然后 按照 值 域 的 基 丘 量 形式 对 每 个 变换 结 
果 进 行 展 开 ， 每 次 展开 得 到 矩阵 表示 中 的 一 列 。 这 里 ， 定 义 域 和 值 域 的 基 集 都 是 | s: 5210 
所 以 首先 对 ;| 进行 变换 。 如 果 依 据 直 线 xi + xz =0 BO 5, (如 图 6-14(a) 所 示 )， 可 得 
Alsi) =- 52 = 2 disi = 41151 + @2152 = OS; + (— 1)s2 
此 式 给 出 矩阵 的 第 一 列 。 下 面 对 sz 进行 变换 (如 图 6-14(b) 所 示 ) ， 可 得 
A(s>) 一 一 上 = > Qi28; = Q12531 + 49982 = (= 1)sı + Os 


此 趟 给 出 矩阵 的 第 二 列 。 最 后 的 结果 是 
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ACS) = -32 





(a) 对 号 进行 的 变换 (b) 对 5 进行 的 变换 


图 6-14 反射 操作 
下 面 通 过 对 向 量 x=[1 1) HA BRR WIE LIAR: 


=- [oi = 


这 实际 上 是 依据 直线 x1 + xz = 0 对 向 量 x 进行 反射 (如 图 6-15 Br). 





图 6-15 对 反射 操作 的 验证 


(你 能 够 猜测 出 该 变换 的 特征 值 和 特征 同 量 吗 ” 请 使 用 Neural Network Design Demon- 
stration (神经 网 络 设计 演示 ) 中 的 Linear Transformations(nn6lt) 以 图 形 的 方式 研究 一 下 。 请 
利用 MATLAB 的 eig 函数 计算 该 特征 值 和 特征 向 量 ， 然 后 检验 一 下 你 的 猜测 绪 未 古 售 正 
确 。) 

P6.4 设 复数 向 量 空间 X 的 基 是 11 +j, 1-jl, BR: XX B—TERET O = 
(x)= )s 

(i) 求 变换 + 相对 于 上 述 基 集 的 矩阵 表示 ; 

(ii) 求 该 变换 的 特征 值 和 特征 向 量 ; 

Gii) 当 将 特征 向 量 作为 基 向 量 时 ， 求 + 相对 于 该 基 向 量 的 矩阵 表示 。 

解 

(i) 为 了 求 该 变换 的 矩阵 ， 对 每 个 基 向 量 进行 变换 ， 也 即 求 每 个 基 内 量 的 共 暂 : 

Alv) = A+) = 1 -f = n= aun + ayn = ON+1% 
AV) = Al 一 j) = 1+ j = CI = anı + an V2 = ly, + UV, 
NM LPR ER eS | 
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ae 
A= 
: 1 0 
(ii) A TORRE, tr Ash (6.49): 
一 人 i | p) : 
a-a = [5 J peB b= G- par = 


所 以 特征 值 是 A =1，42 = -1。 为 了 求 特征 向 量 ， 用 式 (6.48): 





6-20 当 A=X1=1 了 时 ， 有 





或 


工 11 = 22 


H 


或 是 该 向 量 的 任意 倍数 。 对 第 二 个 特征 向 量 而 言 ， 用 和 = Xs,= -1， 可 得 : 
| ‘| me d Z2 "id 
1 1)? 7 [1 aill | lo 


£12 =- Ly 


] 
TEA 
或 是 该 问 量 的 任意 倍数 。 
注意 : 虽然 前 面 这 些 特 征 向 量 是 用 一 列 数 来 表示 ， 但 实际 上 它们 都 是 复数 ， 比 如 : 
Z,=1%4+1%= (1 +j)+-j) =2 
2144-1 = (1+j)-O-j)=2; 
检查 这 两 个 数 ， 它 们 确实 是 特征 癌 量 ; 
A(Z) = (2)”= 2 = AZ; 
ACZ) = 2j) =-2j = M2 
(iii) 为 对 基 集 进行 变换 ， 需 要 用 式 (6.33): 
6-21 A’ = [B-AB, | = [B- AB| 


所 以 第 一 个 特征 问 量 是 


或 


所 以 第 二 个 特征 向 量 是 


oat] 
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(定义 域 和 值 域 用 的 是 同一 个 基 集 。) 所 以 有 
wfo anal bene ‘Jal Ar A 0 
0.5 -0.5311 OJL1 -1] lo -ıl Jo 4, 
正如 式 (6.69) 所 预计 的 ， 这 里 将 变换 的 矩阵 表示 对 角 化 了 。 
P6.5 请 对 角 化 下 面 的 和 矩阵: 


解 

第 一 步 是 求 矩 阵 的 特征 值 . 

[2-3 2) 
-1 3-ì 

所 以 ， 特 征 值 是 人 ; = 1，%, = 4。 再 求 特 征 向 量 ; 


la -ilz = | 2 lew |? 


=X ~5A4¢42 (A-1)(A-4) =0 








ITA -AI]| = 


3 -入 0 
L =à lit, 有 
| A >, 1 -2|| 21 0 
E 2 [a=] > ye") bd 
n Zi = 222) 
所 以 第 一 个 特征 问 量 是 
2 
a =| | 
或 是 该 向 量 的 任意 倍数 。 
MA=A,=4N, FA 
> ne. -2 -2|| 712 0 
- Ja = (2? 2 2)/ 28 | -| 
或 
Zi =- Zn 
所 以 第 二 个 特征 癌 量 是 
] 
TRA 
或 该 向 量 的 任意 倍数 。 
为 了 对 角 化 该 矩阵 ， 我 们 用 式 (6.69): 
A = [BAB] 
其 中 


2 i 
“oi 1 =|} n 
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a. (2 1/3 | 2 VIP? l | -| 4 | 0 
11⁄3 -2/3Jl-1 3 1 -1/ 104) |O A 
P6.6 假设 变换 4: R NRN 相对 于 标准 基 集 的 矩阵 表示 为 

3 =] 4 


所 以 有 


w 


0 0 1 
6-23) 求 该 变换 相对 于 如 下 基 集 的 矩阵 : 
2 0 if o 
| 
1J Lo 3 E 











解 
第 一 步 是 构造 如 下 两 个 矩阵 ， 





B, = 
0 -2 
1 0 3 
现在 ， 利 用 式 (6.33) 形 成 新 的 矩阵 表示 : 
A’ = [B-IAB,] 
1 É 7 | j al-l i l A 
0 -了 0 0 ] 3 -7 0 — 








所 以 上 面 和 矩阵 就 是 该 变换 相对 于 基 集 7 和 六 的 矩阵 表示 。 
P6.7 假设 变换 4: RRN o R 的 一 个 基 是 了 = 1M, nto 
(i) 当 给 定 如 下 等 式 时 ， 求 变换 x 相对 于 基 集 V 的 矩阵 表示 ， 
ACV) = V + 2%, 
AlN) = TI + 
(ii) 假设 有 一 个 新 的 基 集 W=|w, mio 4REMPSAN, KER x 相对 于 基 
SW Ne: 


W, = V+ 
Wy = Vi- Vy 


解 
| 6-24 | (i) 如 同 在 式 (6.6) 中 所 定义 的 ， 两 个 等 式 分别 给 出 了 和 矩阵 的 两 列 。 因 此 所 求 的 矩阵 是 


| 6-24 | 
bay 
A= 
2 1 


(ii) 可 以 按照 V 的 基 向 量 的 形式 将 W 的 基 回 量 表示 为 


epi e 


MERE AHE h HE aE A ER EA E : 
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| | 
B, — 
1 i 


Oe 
= [B7 AB, | 


R -| 172 : alc A | 5/2 2 | 
1/2 -1/2]12 1 sis be? 217? 


P6.8 假设 所 有 阶 数 小 于 等 于 2 的 多 项 式 的 向 量 空间 为 P*， 该 向 量 空间 的 一 个 基 是 V = 
1, t, Êl, D 是 一 个 微分 变换 。 
(i) 求 这 个 变换 相对 于 基 集 的 矩阵 表示 ; 
(ii) 求 变换 的 特征 值 和 特征 问 量 。 
解 
(i) 第 一 步 是 对 每 个 基 回 量 进行 变换 ， 
(0) =0= (0)1 + (O)t + (0) t? 
a(t) =1 = (1)1+ (O)t + (0) 2? 




















D(t?) = 2t = (0)1 + (2)t + (COD #? 6-25 
变换 的 矩阵 是 : 
0 1 0 
-| 0 7 
0 0 0 
(ii) 为 了 求 特 征 值 ， 必 须 求 解 
-À 1 0 
[D-a]: =|] 0 -à 2 | =-¥ =0 
0 0 一 和 
所 以 所 有 三 个 特征 值 都 是 0。 为 了 求 特 征 向 量 ， 和 需要 求解 
-A | 0 0 
ID-\Iliz=| 0 -à 2 -o 
0 0 一 入 0 
对 于 和 A=0 有 
0 1 0|| #1 0 
EEL 
0 0 OILY, 0 
这 意味 春 
Zo = Z3=0 


所 以 ， 只 能 得 到 一 个 特征 癌 量 : 
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HA ah, LARA SERA SRI, AT RO 阶 多 
P6.9 设 有 一 个 变换 4: HR. E 6-16 给 出 了 该 变换 的 两 个 实例 。 求 变换 相对 于 标 
准 基 集 的 矩阵 表示 。 


X i 





A(X 2) 


图 6-16 例题 P6.9 的 变换 


解 
对 于 这 个 问题 而 言 ， 因 为 并 不 知道 基 向 量 是 如 何 被 变换 的 ， 所 以 不 能 用 式 (6.6) 求 解 变 
换 的 矩阵 表示 。 但 是 ， 知 道 如 何 对 图 中 的 两 个 回 量 进行 变换 ， 也 知道 如 何 按照 标准 基 集 的 形 
式 来 表示 这 两 个 问 量 。 根 据 图 6-16， 可 以 写 出 如 下 等 式 : 
20 
-| 


HE aly 
A = , A 
2 0 1 
将 上 面 两 个 等 式 合 并 在 一 起 : 
Pari O Pari 
A = 
2 1 0 -1 
所 以 
re iii We eA -| 1/4 i xi 5⁄4] 
{0 -1Jl2 1 “EO as1 2I E =172 


这 就 是 变换 相对 于 标准 基 集 的 矩阵 表示 。 
在 Neural Network Design Demonstration 中 的 Linear Transformations (nnd6lt) FA 2!) T ix 


627, 个 过 程 。 
6.5 结束 语 


这 一 章 复习 了 线性 变换 及 其 矩阵 的 一 些 性 质 ， 这 些 内 容 对 学 习 神 经 网 络 至 关 重 要 。 特 征 
值 、 特 征 向 量 、 基 变换 (相似 变换 ) 和 对 角 化 等 概念 在 后 面 各 章 还 会 被 经 常用 到 。 如 采 没 有 这 
些 线性 代数 的 背景 知识 ， 那 么 读者 只 能 肤浅 地 学 习 神 经 网 络 。 
6-28 | 下 一 章 将 应 用 这 些 线性 代数 知识 来 分 析 第 一 个 神经 网 络 训练 算法 的 操作 


参考 文献 


[Brog91 | W. L. Brogan, Modern Control Theory, 3rd Ed., Englewood Cliffs, NJ: Prentice- 





Hebb 规则 。 





ww ai bbt. com DODODODOODODOD 


BOR HARE PHA/LRE 97 


Hall, 1991. 
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容 ， 也 有 一 些 写 得 非常 好 的 章节 讨论 线性 微分 方程 求解 、 线 性 系统 和 非 线 性 系统 的 稳定 
性 等 内 容 。 该 书 有 许多 习题 。 
_Stra76] G. Strang, Linear Algebra and Its Applications, New York: Academic Press, 1980. 
这 是 Strang 撰写 的 一 本 优秀 的 线性 代数 基础 教材 。 该 书包 含 了 许多 线性 代数 应 用 实 


>] aA 


E6.1 
E6.2 


E6.7 


AE E ae R E PE RG? 
参考 图 6-12 PAAR RIE AAR, TH 
AR: 如 果 基 向 量 b 等 于 0， 那 么 神经 网 络 完 
成 的 是 一 个 线性 操作 。 
考虑 图 6-17 中 的 线性 变换 。 
(i) 求 这 个 变换 相对 于 标准 基 集 的 矩阵 表 
AN 5 
(ii) 求 该 变换 相对 于 基 集 IY, MIA 图 6-17 习题 E6.3 的 变换 实例 
阵 表示 。 / 
设 复数 空间 为 一 个 向 量 空间 X，X 的 基 是 11+j，1-i 计 。=: XOX BTR + 
门 的 操作 ( 即 (x)= (14+ fm) 
(i) ROR x 相对 于 上 面 所 给 的 基 集 的 矩阵 表示 ; 
(ii) 求 变换 的 特征 值 和 特征 向 量 ; 
(iii) 将 特征 向 量 作 为 基 向 量 ， 求 变换 -zx 相应 的 矩阵 表示 ; 
(iv) 用 MATLAB 验证 (ii) 和 (iii)。 
假设 有 一 个 从 二 次 多 项 式 空间 到 三 次 多 项 式 空 间 的 变换 ， oz PoP, HEX MW 
F: 





X = ao + aıt + ant? 


ACX) = a(t +1) + a,(t +1)? + aft +1)° 


求 这 个 变换 相对 于 基 集 Ve Af, t, CLAM V= il, t, t, PLR. 


考虑 asin(t + 中 ) 形 式 的 函数 的 空间 。 这 个 空间 的 一 个 基 集 是 Ve=isint, cost}. 8 

D 是 一 个 微分 变换 。 

(i) RER > MITER V 的 矩阵 表示 ; 

(ii) 求 变换 的 特征 值 和 特征 向 量 。 请 按照 数列 的 形式 和 t 的 函数 形式 表示 特征 
a] = 

(iii) KERAPTE MEAIB, CRAP TAD Re 

设 P? 和 P3 分 别 是 二 次 和 三 次 多 项 式 的 向 量 空间 。 求 积分 变换 I: P— P 相对 

FRE Veli, t, PIM Val, t, t, CNBR, 


E6.8 设 某 个 线性 变换 4: RR 相对 于 标准 基 集 有 如 下 矩阵 表示 形式 : 


ww ai bbt. com DODODODODODOD 


6-29 
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cal 
ie 

3 4 
求 这 个 变换 相对 于 如 下 新 基 集 的 矩阵 表示 。 


] 2 
r= (sts) 

3 5 
6-31 | E6.9 假设 我 们 知道 某 个 线性 变换 4: R R? 有 如 下 特征 值 和 特征 问 量 : 

] ] 
A, = d; THE À = 2, n =|, 

(注意 : 这 里 是 相对 于 标准 基 集 来 表示 特征 问 量 的 。) 
Ci) KER x 相对 于 标准 基 集 的 矩阵 表示 ; 
(ii) 求 变 换 相 对 于 如 下 新 基 集 的 矩阵 表示 : 


rt LY] 
ye tw =f DLT] 


(注意 : 这 里 是 相对 于 标准 基 集 来 表示 基 向 量 的 。) 
(i) 求 这 个 基 集 的 互 逆 基 癌 量 。 
(ii) 设 变换 7: R R 相对 于 ?中 的 标准 基 集 的 矩阵 表示 为 


=| | 


请 按照 基 集 V 的 形式 ， 求 Av, 的 展 式 。( 采 用 互 逆 基 向 量 ,) 
(iti) 按照 基 集 V 的 形式 ， 求 Av 的 展 式 。 
"6-32 (iv) 求 变换 4 相对 于 基 集 了 的 矩阵 表示 形式 。( 这 一 步 应 无 需 更 多 的 计算 。) 


E6.10 ER? 的 基 集 为 
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第 7 章 有 监督 的 Hebb 学 习 


7.1 目的 


Hebb 规则 是 最 早 的 神经 网 络 学 习 规 则 之 一 ， 由 Donald Hebb 在 1949 年 作为 大 脑 的 一 种 
神经 元 突 触 调整 的 可 能 机 制 而 提出 ， 从 那 以 后 Hebb 规则 就 一 直 用 于 人 工 神经 网 络 的 训练 。 

本 章 将 运用 前 两 章 提 出 的 线性 代数 的 概念 前 述 Hebb 学 习 的 工作 原理 ， 并 说 明 如 何 把 
Hebb 规则 用 于 训练 人 工 神经 网 络 。 


7.2 理论 和 实例 


上 世纪 初 ，Donald 0.Hebb 出 生 于 Nova Scotia 的 Chester。 他 原 想 做 一 省 小 说 家 ， 并 于 
1925 年 在 Halifax 的 Dalhousie 大 学 获得 英语 学 位 。 考 虑 到 作为 一 名 一 流 小 说 家 必须 对 人 类 本 
质 有 深刻 的 认识 ， 毕 业 后 的 Hebb 开始 研究 弗 洛 伊 德 ， 并 对 心理 学 产生 了 浓厚 兴趣 。 后 来 ， 
他 到 McGill 大 学 攻读 心理 学 硕士 学 位 ， 并 完成 了 关于 书 甫 洛 夫 条 件 反 射 理论 的 竺 位 论文 。 
1936 年 ， 他 获得 哈佛 大 学 的 博士 学 位 ， 他 的 学 位 论文 研究 了 对 老鼠 视觉 的 早期 实验 的 歼 末 。 
后 来 ， 他 加 入 蒙特 利 尔 神经 学 院 ， 研 究 脑 外 科 手 术 后 病人 智能 变化 的 程度 。1942 Æ, Hebb 
转 到 设 在 佛罗里达 研究 灵 长 类 动物 的 Yerkes 实验 室 ， 在 那儿 ， 他 从 事 对 非 训 晨 猩 独行 为 的 
WR o 

1949 Œ, Hebb 在 其 《 The Organization of Behavior )—3[ Hebb49 | F afi T ft 20 年 来 的 
研究 工作 。 该 书 的 主导 思想 是 : 行为 可 以 由 神经 元 的 活动 来 解释 。 而 这 与 拥有 像 B. 下. Skin- 
ner 这 样 的 支持 者 的 行为 主义 心理 学 会 的 观点 大 相 径 庭 ， 他 们 强调 刺激 与 反射 的 关联 ， 并 反 
对 任何 生理 学 假说 。 这 是 一 场 自 上 而 下 与 自 下 而 上 的 哲学 上 的 争论 。Hebb iH ARENA 
法 :“ 这 种 称 为 学 习 的 方法 因而 要 求 个 体 尽 量 多 地 学 习 其 大 脑 各 组 成 部 分 所 产生 的 知识 (主要 
在 生理 学 领域 ) ,并 尽 其 所 能 将 这 些 知识 与 行为 相关 联 (主要 在 心理 学 范畴 ) ,在 对 大 脑 各 个 组 
成 部 分 的 活动 加 以 综合 之 后 ,对 行为 进行 预测 ,并 与 实际 的 行为 相对 比 , 从 中 发 现 差 异 ,进而 据 
此 对 整个 大 脑 的 工作 原理 做 出 深入 的 探索 。 

Hebb 假设 <The Organization of Behavior) 一 书 中 最 著名 的 思想 就 是 现在 称 为 Hebb 学 
习 的 一 个 假设 :“ 当 细胞 A 的 轴 突 到 细胞 B 的 距离 近 到 足够 激励 它 , 且 反复 地 或 持续 地 刺激 
有 ,那么 在 这 两 个 细胞 或 一 个 细胞 中 将 会 发 生 某 种 增长 过 程 或 代谢 反应 ,增加 A 对 细胞 BB 的 
刺激 效果 。 

这 个 假设 提出 了 一 种 细胞 级 学 习 的 物质 机 制 。 尽 管 Hebb 从 未 宣称 其 理论 具有 可 靠 的 生 
理学 证 据 ， 但 是 其 后 的 研究 表明 某 些 细胞 的 确 表现 出 Hebb 学 习 的 行为 。Hebb 的 理论 对 当 
今 的 神经 科学 研究 仍 具 有 影 啊 。 

同 历 史上 许多 思想 一 样 ，Hebb 假设 也 并 不 是 全 新 的 ，Hebb 本 人 也 强调 了 这 一 点 。 它 吸 
收 了 许多 其 他 科学 家 的 思想 ， 如 弗 洛 伊 德 ， 以 及 心理 学 家 和 哲学 家 William James 在 1890 年 
提出 的 相 联 原理 :“ 当 两 个 大 脑 过 程 同 活跃 或 立即 相继 活跃 时 ,其 中 之 一 会 重复 地 把 活 诸 状态 
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传播 给 另外 一 个 。 
7.2.1 线性 联想 器 

线性 联想 器 ”Hebb 学 习 规 则 能 用 于 和 多 种 神经 网 络 结构 相 组 合 。 在 首次 讨论 Hebb 学 
习 时 ， 将 采用 一 种 非常 简单 的 结构 。 这 样 读者 就 能 够 集中 研究 学 习 规 则 而 不 专注 于 结构 。 这 
里 将 使 用 的 网 络 被 称 为 线性 联想 器 (如 图 7-1 所 示 ， 它 是 由 James Anderson [Ande72] 和 Teu- 
vo Kohonen | Koho72 | 分 别 独立 提出 的 )。 





a = purelin( Wp) 
图 7-1 线性 联想 前 
输出 向 量 a 由 输入 向 量 pI TARE: 
或 
a; = a W iD, (722) 


联想 存储 器 ”线性 联想 器 是 被 称 为 联想 存储 器 的 神经 网 络 类 型 中 的 -种 神经 网 络 ， 联 想 
存储 器 的 任务 是 学 习 0 对 标准 输入 /输出 向 量 : 
ip, tits {pa ta! si pg ste! Tsay 
即 是 如 果 网 络 接收 一 个 输入 p = p,， 那 么 它 应 能 产生 一 个 输出 a= 日 ， 这 里 9 = 1，2，… 
0。 另外， 如 果 输 入 发 生 了 微小 变化 ( 即 p= p, + 8)， 那 么 网 络 的 输出 只 应 发 生 轻 微 的 改变 
( 即 a=t +e)。 | | 


7.2.2 Hebb 规则 


为 了 将 Hebb 假设 用 于 训练 线性 联想 器 的 权 值 矩阵 ， 那 么 又 如 何 给 出 Hebb 假设 的 数学 
RR? 首先 ， 再 次 重 述 一 下 该 假设 : 若 一 条 突 触 两 侧 的 两 个 神 径 元 同时 被 激活 ， 那 么 突 触 
的 强度 将 会 增 大 。 

Hebb 规则 请 注意 在 式 (7.2) 中 ， 输 入 p, 和 输出 a; 之 间 的 连接 ( 突 触 ) 是 权 值 wo Pi 
以 ，Hebb 假设 意味 着 : 如 果 一 个 正 的 输入 p 产生 一 个 正 的 输出 a;， 那么 应 该 增加 w, 的 值 。 
这 就 是 该 假设 的 一 种 数学 解释 ， 印 
人 = wy + afi ay) g; Pa) (7.4) 


这 里 p 为 第 4 个 输入 向 量 ,的 第 ) 个 元 素 ，oi 为 把 第 4 个 输入 向 量 提交 给 网 络 时 网 络 输出 


w 


ww ai bbt. com DODODOOODODOD 


B77 ABEGI Hebb 学 了 了 101 


的 第 i TICK, 是 一 个 称 为 学 习 速 度 的 正 的 常数 。 这 个 等 式 表明 : 权 值 w, RES R Ah 
两 边 的 活跃 蚊 数 值 的 磁 积 成 比例 。 本 章 把 式 (7.4) 简 化 成 如 下 形式 。 
wre” = weld + agigp;, (7.5) 

请 注意 ; 这 里 在 严格 解释 的 基础 上 扩展 了 Hebb (Rik, REKE SR SMR 
乘积 成 比例 。 因 此 ， 权 值 不 仅 在 P Ma 均 为 正 时 增 大 ， 而 且 在 p, Ma, 均 为 负 时 也 会 增 大 。 
Ags, RE p Ma, 的 符号 相反 ， 那么 Hebb 规则 的 这 种 实现 将 使 得 权 值 减 小 。 

式 (7,5) 定 义 的 Hebb 规则 是 一 种 无 监督 的 学 习 规 则 ， 它 不 需要 关于 目标 输出 的 任何 相 
关 信 息 。 本 章 只 关注 用 于 有 监督 学 习 的 Hebb 规则 (无 监督 学 习 的 Hebb 规则 将 在 第 13 Ær 
论 )， 并 且 假 定 每 个 输入 向 量 相 应 的 目标 输出 都 是 已 知 的 。 对 于 有 监督 的 Hebb 规则 而 言 ， 
这 里 将 用 目标 输出 代替 实际 输出 。 由 此 ， 算 法 被 告知 的 就 是 网 络 应 该 做 什么 ， 而 不 是 网 络 当 
前 正在 做 什么 。 得 到 的 等 式 为 


wie = wi’ + tig, (7.6) 


其 中 4 是 第 g AERAR t 的 第 ; 个 元 素 (为 了 简单 起 见 ， 这 里 设 学 习 速 度 a 的 值 为 1)。 
请 注意 ， 式 (7.6) 也 可 瑟 为 如 下 癌 景 形式 ， 
wee = W + top, (7.7) 


如 果 假 定 将 权 值 矩阵 初始 化 为 0， 然 后 0 个 输入 /输出 对 依次 应 用 式 (7.7)， 那 么 有 


W = tip, + bp, +" + topo = Dp! (7.8) 
q= 1 
用 和 矩阵 形式 可 以 表示 为 
7 
P; 
pf 
W = [tb…to]| . |= TP? (7.9) 
po 
其 中 
T = tty tg), P = [pip2…po- (7.10) 
性 能 分 析 


下 面 分 析 线性 联想 器 的 Hebb 学 习 的 性 能 。 首 先 设 输入 向 量 p 为 标准 正 交 向 量 (向 量 之 
间 是 正 交 的 ， 每 个 向 量 的 长 度 为 单位 长 )。 如 果 将 p, 输入 到 网 络 ， 那 么 网 络 产生 的 输出 为 


a= Wp, = Dopp, = Dt (prp,) (7.11) 
由 于 p 为 标准 正 交 向 量 ， 所 以 有 
l, q= 
(P, Pi) = i sai (7.12) 
因此 式 (7.11) 可 重 写 为 
a= Wp, = tr (7.13) 


此 时 ， 网 络 的 输出 等 于 其 相应 的 目标 输出 。 这 表明 :; 如 果 输 入 原型 各 量 是 标准 正 交 同 
Æ, Hebb SLU a BE Dy ETA AE Ti R o ; 
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1 Fe 9 A TAN EE SCI ET, XHW? 假设 每 个 向 量 p 为 单位 向 量 , 但 


PP GE [i] $B iE tf 


是 它们 之 间 并 不 正 交 ， 那 么 式 (7.11) 变 为 
a = Wp, = t; + D> t,(p7p,) 
g 


误差 


(7.14) 


由 于 这 些 向 量 不 是 正 交 的 ， 所 以 网 络 的 输出 有 误差 。 误 差 的 大 小 取决 于 原型 输入 模式 之 


闻 的 相关 总 和 。 


例如 ， 假 设 原 型 输入 /输出 网 量 为 


P; = 


wee? =| | Ji 
7 ~t-1 1310.5 


用 上 述 两 个 原型 输入 验证 该 权 值 矩阵 ， 有 


7-6) 获得 成 功 ! 网 络 的 输出 与 目标 输出 相等 。 


P; = 





这 时 的 权 值 矩阵 为 


0.5 0.5 
-0.5 git] | 05 ee |] 1 
05 ”| -05| | 
-0.5 -0.5 
(可 以 验证 这 两 个 输入 向 量 是 标准 正 交 间 量 。) 那么 网 络 的 权 值 矩阵 为 
-0.5 0.5 pa ae 0 mal 
0.5 -0.5 -0.5] LO 1 -1 0 
0.5 
= i 0 ra | oon i (7 
Plo 1-1 0 0.5 Il-1 
_ 0.5 
0.5 
10 0 -11| 0.5 | 
wp = | 1 -1 M _ 0.5 -| | oi 
_ 0.5 
现在 ， 再 次 考虑 在 第 3 章 中 给 出 的 苹果 和 橘子 的 识别 问题 。 其 原型 输入 为 
1 | 
p =| -1| Gat), p=} 1 (FER) (7 
| = 1 
(注意 ; p, p 不 是 正 交 向 量 ) 将 p,，p, 归 格 化 ， 并 选取 期 望 输出 为 - 1 和 1， 则 有 
0.5774 0.5774 
_ 0.5774 |,t, = [- 中 -| 0.5774 |,t = a) (7, 
_ 0.5774 _ 0.5774 
0.5774 -0.5774 a) i. te N. 
0.5774 0.5774 - 0.5774 


We? =(-1 1]| 




















所 以 ， 如 果 采 用 上 面 的 两 个 原型 输 和 模式， 分别 有 
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0.5774 
= |0 1.1548 n -osmi 

— 0.5774 
0.5774 
0.5774 
- 0.5774 


这 里 的 输出 接近 目标 输出 ， 但 与 上 且 标 输出 并 不 能 十 分 匹配 。 
7.2.3 WER 


当 样 本 输入 模式 非 正 交 时 ，Hebb 规则 会 产生 误差 。 有 多 种 方法 可 以 减 小 这 种 误差 。 本 
节 我 们 讨论 其 中 之 一 ， 即 仿 逆 规则 。 
线性 联想 器 的 任务 是 对 于 输入 p ERD t,, Bl 
Wp, = t> q = 上 (7.24) 
如 果 无 法 找到 使 这 些 等 式 绝 对 成 立 的 权 值 窍 阵 ， 那 么 也 希望 找到 使 它们 近似 成 立 的 权 值 
和 矩阵。 一 种 方法 是 ， 选 取 一 个 权 值 矩阵 ， 使 下 列 性 能 参数 最 小 化 : 
F(W) = s | t, - Wp, | (7.25) 
ROR A aT A el p, 是 标准 正 交 的 ， 那 么 用 Hebb 规则 来 求 权 值 矩阵 W， 则 F(W) 为 
零 、 如 果 输 入 向 量 不 是 标准 正 交 的 ， 那 么 用 Hebb 规则 得 到 的 下 (W) 将 不 等 于 零 ， 而 且 
FF(W) 是 否 为 最 小 值 也 不 十 分 清楚 。 可 以 证 明 ， 如 果 使 用 下 面 将 定义 的 仿 逆 规则 ， 则 所 得 权 


值 矩阵 可 使 F(W) 最 小 化 。 
将 式 (7.24) 写 成 矩阵 形式 : 


Wp = [ -0.6668| (7.22) 


] 





Wp, = [0 1.1548 0! = [0.6668 | (7.23) 


2 








WP = T, (7.26) 
其 中 
T=[t t … tlP=[Ip p, … Po. (7.27) 
则 式 (7.2$) 可 以 写 为 
F(W) = || T-WP|? = |E]? (7.28) 
这 里 
E = T- WP (7.29) 
H. 
JEW? = 2 due} (7 30) 
请 注意 ， 如 果 式 (7.26) 有 解 ， 那 么 F(W) 可 以 为 零 。 若 存在 矩阵 P 的 着 ， 则 解 为 
W = TP! (7.31) 


然而 ， 这 是 很 少 有 可 能 的 。 通 常 矩 阵 P 的 列 回 量 p, 是 线性 无 关 的 ， 但 p KERR HE p, 的 
向 量 个 数 0 要 大 ， 所 以 P 不 是 一 个 方 阵 ， 不 存在 确切 的 逆 阵 。 
参考 文献 [ Albe72] 表 明 使 式 (7.25) 最 小 化 的 权 值 矩阵 可 由 仿 北 规则 给 出 : 
W = TPH (7.32) 
其 中 了 + 为 Moore - Penrose (ji, XEK P 的 仿 逆 是 满足 
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PP* P = P 
oe (7.33) 
P+ P = (P+ P)’ | 
Ppt = (PPt)’ 

AEA, SSE P 的 行 数 R 大 于 其 列 数 QO， 且 PP 的 列 向 量 线性 无 关 时 ， 其 仿 逆 为 
P+ = (PP) P’ (7.34) 


为 了 验证 仿 逆 规则 ( 式 7.32)， 再 考虑 人 苹果、 橘子 的 识别 问题 。 输 人 /和 苯 出 原型 四 基 为 


s] 
| | a 

es TT 
— | 


(请 注意 : HERR AT AS xT A BET ALB. ) 
用 式 (7,32) 计 算得 到 的 权 值 矩阵 为 


| ] 
W = TP* = | -1 > | | (7.36) 
| | 


这 里 ， 用 式 (7.34) 计 算 仿 逆 : 


i | | 
i ‘ve Si (7.35) 
M | 











EO n T Je) _j 7 pe -0.5 -0.25 
E ea E -| 3 1 1 -1 10.25 0.5 -0.25 Wo 
这 就 得 到 了 如 下 权 值 矩阵 : 
0.25 -0.5 -0.25 l 
W = TP = [-1 1] ae ies ore = [0 1 0] (7.38) 
用 该 权 值 矩阵 作用 于 两 个 原型 模式 
1 
Wp, = (0 1 af -1 slei (7.39) 
_] 
| 
Wp,=[0 1 0]| 1 |=[1 (7.40) 
-1 








这 里 的 网 络 输出 与 期 望 输 出 精确 匹配 。 将 此 结果 与 Hebb 规则 的 性 能 比较 。 正 如 可 以 从 
式 (7.22) 和 式 (7.23) 看 出 的 那样 ，Hebb 的 输出 是 接近 的 ， 而 应 用 仿 逆 讽 则 却 能 产生 精确 的 
结果 。 


7.2.4 应 用 


自 联想 存储 器 “现在 将 Hebb 规则 应 用 用 于 一 个 大 大 简化 了 的 实际 模式 识别 问题 。 这 
里 ， 将 使 用 一 种 特殊 类 型 的 联想 存储 器 一 一 自 联想 存储 器 。 在 自 联想 存储 器 中 ， 期 望 输出 向 
量 等 于 网 络 的 输入 向 量 ( 即 4, = p,)。 这 里 将 用 自 联想 存储 器 存储 一 组 模式 ， 并 且 当 其 输入 模 
式 有 所 “破损 "时 ， 它 仍然 能 够 将 其 复原 。 : 
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这 里 要 存储 的 模式 如 图 7-2 所 示 ( 由 于 使 用 了 日 联想 存储 天 , RHE s 
模式 既是 输入 向 量 又 是 目标 向 量 )。 它 们 分 别 是 用 6 x 5 栅 格 所 显示 的 HFE 
数字 i0，1，2;。 这 里 需要 将 这 些 数字 转换 成 向 量 表示 形式 , 分别 作 Poti Pot: Pats 
为 网 络 的 原型 模式 。 如 果 每 个 日 色 的 方 格 用 - 1 eos, BP RENT 区 7-2 BRE 
格 用 1 表示 ,那么 一 次 扫描 6 x $ 栅 格 中 的 一 列 ,就 可 以 生成 这 些 输 储 器 要 存储 的 模式 
和 人 向量。 例如 ， 第 - -个 栅 格 所 表示 的 原型 模式 相应 的 输 和 人 向 量 为 
po ta (7.41) 
向 量 p po p, 分 别 与 数字 0，1，2 相对 应 ， 使 用 Hebb 规则 求 权 值 矩阵 ， 
= pipi t PaPa jä P3P> 
请 注意 : 由 于 这 是 一 个 自 联 想 存 储 器 ， 所 以 这 里 用 
p, 代替 了 式 (7.8) 中 的 t,. 输入 对 称 硬 极限 层 
因为 样本 向 量 的 元 素 仅 限于 取 两 个 值 ， 这 里 将 ON 
对 线性 联想 器 进行 修改 ， 以 使 其 输出 元 单元 也 仅 取 
值 -1 或 1。 为 此 ， 可 以 用 一 个 对 称 的 便 极限 传输 
函数 代替 原来 的 线性 传输 函数 。 修 改 后 的 网 络 如 图 
7-3 所 示 。 | 
现在 来 研究 网 络 的 运行 情况 。 首 先 向 网 络 提供 破 。 39 ) 
损 的 原型 模式 ， 然 后 检查 网 络 的 输出 。 在 第 一 次 测试 a = hardlims(Wp) 
中 ， 将 给 网 络 提供 的 原型 模式 的 下 半 部 分 隐 去 (如 图 图 7-3 用 于 数字 识别 的 自 联想 网 络 
7-4 所 示 )， 网 络 能 够 生成 每 个 样本 的 正确 的 模式 .。 
-# 


meg Ee 
图 7-4 恢复 隐 去 了 50% 的 模式 
在 下 一 步 测试 中 ， 去 掉 原 型 模式 的 更 多 的 部 分 ， 图 7-5 给 出 去 掉 模式 下 面 三 分 之 二 之 后 
的 模式 。 这 时 只 有 “1” 被 正确 恢复 。 另 外 两 个 模式 的 的 恢复 结果 与 原型 模式 都 不 一 样 。 这 是 
联想 存储 器 普遍 存在 的 问题 。 这 里 希望 能 够 设计 出 尽量 减少 产生 这 种 错误 模式 数量 的 网 络 。 
ee 还 将 讨论 这 一 问题 。 Ta 


=e 


图 7-5 恢复 隐 去 了 67% 的 模式 
在 最 后 的 测试 中 ， 将 对 加 入 噪声 的 原型 模式 测试 自 联 想 网 络 。 通过 随机 地 改变 每 一 原型 
模式 的 7 个 元 素来 加 和 人 了 噪声。 测试 结果 如 图 7-6 所 示 ， 这 里 所 有 的 模式 都 被 正确 恢复 。 


we S-E meg 


图 7-6 ”恢复 带 噪声 的 模式 


(7.42) [7:10' 
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可 以 使 用 Neural Network Design Demonstration Hebb Rule (nnd7hr) 对 这 类 模式 
识别 问题 进行 试验 。 





7.2.5 Hebb 学 习 的 变形 


基本 的 Hebb 规则 可 以 有 许多 变形 。 实 际 上 ， 本 书 的 后 面 其 他 章节 所 讨论 的 学 习 规则 都 
与 Hebb 规则 有 关 。 

Hebb 规则 的 问题 之 一 是 : 如 果 训 练 集中 存在 许多 原型 模式 ，Hebb 规则 会 使 权 值 矩 阵 元 
素 过 多 。 再 次 考虑 基本 规则 


Ww - wed ie tp, (7.43) 
可 以 使 用 一 个 称 为 学 习 速 度 的 正 参 数 a( 小 于 1) 限 制 权 值 矩阵 元 素 的 增加 量 ， 即 
wee = We + at, p, (7.44) 


也 可 以 再 加 上 一 个 襄 减 项 ， 使 学 习 规 则 的 行为 像 一 个 平滑 过 滤 船 ， 更 加 清晰 地 记忆 最 近 


的 提供 给 网 络 的 输入 : 
wee = Wo + atap, ~ YW? = (1 = y)W + atap, (7.45) 


12) 其 中 7 为 小 于 1 的 正 的 常数 。 如 果 7 趋 近 于 零 ， 那 么 学 习 规则 趋 近 于 标准 规则 ;， WR y 趋 近 


于 1， 那么 学 习 规则 将 很 快 志 记 旧 的 输入 ， 而 仅 记忆 最 近 的 输入 模式 。 据 此 可 知 ， 这 些 项 的 
引入 可 以 避免 权 值 矩阵 无 限制 地 增 大 。 

过 滤 权 值 变 化 和 调整 学 习 速 度 的 思想 非常 重要 ， 本 书 还 将 在 第 10 AAR 12 到 16 章 中 
再 次 对 其 进行 讨论 。 

如 果 用 期 望 输出 与 实际 输出 之 差 代替 式 (7.44) 中 的 期 望 输出 ， 那 么 可 以 得 到 男 一 个 重要 


zE OJ LM : 
we = Wwe + a(t, . ag) p, (7.46) 


这 就 是 所 谓 的 增 量规 则 ， 因 为 它 使 用 了 期 望 输出 与 实际 输出 之 差 。 根 据 它 的 研究 和 提出 
者 又 被 称 为 Widrow-Hoff 算法 。 增 量规 则 调整 权 值 以 使 均 方 误差 最 小 (参见 第 10 章 )， 因 而 
它 与 仿 逆 规则 得 到 的 结果 相同 ， 仿 逆 规则 使 误差 平方 和 最 小 化 ( 式 (7.25))。 增 量规 则 的 优 总 
是 每 输入 一 个 模式 它 就 能 更 新 一 次 权 值 ， 而 仿 闭 规 则 要 等 待 折 有 输入 /输出 模式 已 知 后 才能 
计算 一 次 权 值 。 这 种 顺序 的 权 值 更 新 方法 使 得 增 量 规则 能 适应 变化 的 环境 。 第 10 章 将 详细 
讨论 增 量 规则 。 

第 13 章 将 在 不 同情 况 下 再 次 讨论 基本 的 Hebb 规则 。 本 章 仅 使 用 了 Hebb 规则 的 一 种 有 
监督 的 学 习 形 式 。 我 们 假定 了 网 络 的 期 望 输出 t, 为 已 知 的 ， 并 能 在 学 习 规 则 中 使 用 。 第 13 
章 讨论 的 Hebb 规则 的 无 监督 形式 将 使 用 实际 的 网 络 输出 代替 期 望 的 网 络 输出 ， 即 如 : 

wee = rp (7.47) 
其 中 a, 是 给 定 p 为 输入 时 的 网 络 输出 (参见 式 (7.5))。Hebb 规则 的 这 种 无 监督 学 习 形 式 由 
于 不 需 知 道 期 望 输 出， 实际 上 比 有 监督 的 Hebb 规则 更 能 够 直接 地 说 明 Hebb 的 原理 。 


7.3 人 小结 


Hebb 假设 
“ 当 细 胞 A 的 轴 突 到 细胞 B 的 距离 近 到 足够 激励 它 , 且 反复 地 或 持续 地 刺激 B, 那 么 在 这 


ww aibbt.com DODODOO0OD0D0 


7È AEROS Hebb $F 107 


两 个 或 一 个 细胞 中 将 发 生 某 种 增长 过 程 或 代谢 反应 ,增加 A 对 细胞 B 的 刺激 效果 。 
线性 联想 厂 








a = purelin(Wp) 


Hebb 规则 
wij = wij + loip,; 
W = tip) + bpz + + topo 
pi 
Pa r 
W = [tt te | ， = TP 
Po 
仿 逆 规 则 
W = TP* 7-14 | 
当 了 的 行 数 R 大 于 其 列 数 0 APH BRECEN, MAE h TARE: 
p+ 二 (p’p)-'p? 
Hebb 学 习 的 变形 
过 滤 学 习 
Ww = (1 -YW + at P? 
(参见 第 14 章 ) 
增 量 规则 
wee =- Wwe + a(t, is a )P, 
(参见 第 10 章 ) 
无 监督 的 Hebb 学 习 
w = W + aa P) 
(参见 第 13 章 ) 
7.4 例题 


”到 .1 考虑 图 7-7 的 线性 联想 器 。 设 输入 /输出 样本 癌 量 为 
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P=] l w[i] E i 1 
_ 1 ~ | 
(i) 运用 Hebb 规则 求 该 线性 联想 右 的 权 信和 矩阵 。 
(ii) BARMAN BS O. 
(iii) 将 输入 p, MAAR (i) SAS AC (Ee hr EAR a8, AJ A eB Gai) BA 





KEE Be PERK AR AE o 
a = purelin( Wp) 

图 7-7 单 神经 元 感知 机 

解 

(i) 第 一 步 根据 式 (7.10) 建 立 抢 阵 P 和 T; 
1 l 
-1 |] 1 1 

“下 T=| | 

| 


7-16) 然后 使 用 式 (7.9) 求 权 值 矩 阵 : 

t TIl =i I sil 2 0 0 -2 
_1 | -| 
(ii) 对 仿 逆 规则 使 用 式 (7 .32): 


w = TRY = | 


W = TP+ 
由 于 了 的 行 数 为 4， 大 于 其 列 数 2， 且 其 列 向 量 线性 无 关 ， 则 可 用 式 (7.34) 求 仿 逆 ， 
P+ = (P7P)-IP” 


no $ -1 1 = si 1 f -1 1 +1 
“ili 1 -1 -1 1 -1 1 1 -1 af 
ot ad 
me | -1 1 N 
04} {1 1 -1 -1 
i 4 1 1 1 1 
j4 f -1 1 lj = 4 4 4 ~4 
“Jo 4f a -1 -1) "Ja 1 Ld _4 
4 4 4 ~4 ~4 
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现 可 以 计算 权 值 矩阵 : 
A i 1 I 了 i 
i ia ~ 4 74 2 0 0 -3 
w -Tp | | Ai | 1 ] | 1 1 
4 4 -4 -4 Aa 
(iii) 现在 测试 两 个 权 值 矩阵 : 
20 0 -2||-1 4 
wp = | -| J 
P-~lo 2 -2 off 1 uh PO 
=. 7-17 
AL 1 ] 
m 2 9 0 -z| Ly E 
P; “= j 1 1 ‘4 1 = M ] — | 
2 77? _ 1 


为 什么 Hebb 规则 不 能 产生 正确 的 结果 呢 ? 重 新 考虑 式 (7.11)。 由 于 p, Mp 正 交 (请 对 
此 进行 验证 ) ， 这 个 等 式 可 以 与 为 
W'p, = ti(pi pi) 
但 向 量 p, 没有 规格 化 ， 故 pl pl 关 1， 所 以 网 络 输出 不 会 等 于 ti。 
男 一 方面 ， 仿 逆 规 则 能 够 确保 下 式 达 到 最 小 值 : 


2 


2 | tp - Wp, li? 


gz! 


BAKE ER PAS 

P7.2 考虑 图 7-8 所 示 的 原型 模式 。 

(i) 这 些 模 式 是 否 正 交 ? 

(ii) 使 用 Hebb 规则 ， 为 这 些 模式 设计 一 个 目 联想 存储 人 般 。 

(iii) 输入 图 7-8 中 的 原型 模式 p,， 求 网 络 啊 应 。 

解 

(i) 首先 将 模式 转换 成 向 量 。 假 设 黑 方 格 取 值 为 1， 白 方 格 取 值 为 -1。 
然后 对 模式 进行 逐 列 扫描 ,可 以 将 这 些 二 维 模式 转换 成 同 量 ( 也 可 以 人 未 行 扫 
描 )。 由 此 得 到 如 下 两 个 原型 问 量 : 

p=[l 1 -1 1 -1 -1 ， p=[l-1 1 1 1 1 


为 了 判断 p, 和 p, 是 否 正 交 ， 需 要 求 它们 的 内 积 : 7-18 





pip = 1 ] — | l — | - 1] 


AL p, 和 p, 是 正 交 的 。( 由 于 pi pj =p p =6, FA p,, p, 都 不 是 规格 化 问 量 。) 


ww ai bbt. com DODODODOODODOD 


110 FP LB P $6 rE t+ 


(ii) 采用 如 图 7-3 所 示 的 自 联 想 存储 器 ， 这 里 的 输入 /输出 的 数量 为 6。 运用 Hebb 规 
WRAL (ESE. 


W = TP’ 
其 中 
E =l 
i 1 
ee E 
1 1 
-1 i 
a, =f 
所 以 权 值 矩阵 为 
1 =l 2 0 -2 0 -2 0 
1 1 0 2 0 2 0 -2 
wart.) =? 1 1 1 -1 1 -1 -1] | -2 0 2 0 2 0 
Lt tvhet 2? & eT ei 0 2 0 2 0 -2 
a -2 0 2 0 2 0 
sl al 0 -2 0 -2 0 2 
Gii) 为 了 把 测试 模式 提交 给 该 网 络 ， 需 要 将 其 转化 为 如 下 向 量 ; 
p=[1 1 1 1 1 -1]’ 
那么 网 络 的 响应 为 
2 oO -2 0 -2 0 ] 
0 2 0 2 0 -2 1 
2 0 2 0 2 0 1 
a= hardlims( Wp, ) = hardlims 
0 2 0 2 0 -2 l 
-2 0 2 0 2 0 i 
0 -2 0 -2 0 2 zi 
22 =| 
6 | 
2 l 
a = hardlims 6 = , [=P 
2 1 | 
a wil 


这 是 满意 的 网 络 啊 应 吗 ” 我 们 希望 网 络 对 这 个 输入 模式 如 何 啊 应 ?网 络 应 该 产生 与 输入 
模式 最 接近 的 原型 模式 。 这 里 ， 测 试 输入 模式 P, = p, 的 Hamming 距离 为 1， 与 p, 的 Ham- 
ming 距离 为 2。 因 此 ， 该 网 络 的 确 产 生 正确 的 响应 (参见 第 3 ARF Hamming 距离 的 论述 )。 

请 注意 ; 本 例 中 并 未 对 原型 向 量 进行 规格 化 。 但 这 并 未 导致 发 生 在 P7.1 中 相同 的 网 络 
性 能 问题 ， 原 因 在 于 hardlims 的 非 线 性 特性 使 得 网 络 输 出 只 能 取 1 或 - 1。 实际 上 ， 大 多 数 
神经 网 络 非常 有 趣 和 有 用 的 特性 都 归 因 于 非 线性 特性 的 作用 。 


ww ai bbt. com DODODODOODODOD 


B7# JEEG Hebb $F 111 


P7.3 考虑 有 三 个 原型 模式 (如 下 所 示 的 pl，p，p) 的 目 联想 问题 。 试 分 别 运用 Hebb 
规则 和 仿 逆 规则 设计 一 个 目 联 想 网 络 ， 以 识别 这 些 模式 。 用 下 面 的 测试 模式 p, 检验 网 络 的 


性 能 。 


解 
这 个 问题 用 手工 求解 有 些 枯燥 ， 所 以 我 们 用 MATLAB 工具 求解 。 
首先 ， 建 立 原型 向 量 ; 


P=Lpl p2 p3] 
现在 用 Hebb 规则 求 权 值 和 矩阵 ， 


为 了 测试 网 络 ， 首 先生 成 测试 向 量 : 
pt=[-1 1 -1 -1 1 -1 1] 
然后 计算 网 络 的 啊 应 : 
ah = hardlims(wh* pt) 
ah! 
ans = 
1 l — ] -1 i -1 l 
请 注意 : 这 个 响应 与 任何 原型 向 量 都 不 匹配 。 这 并 不 奇怪 ， 因 为 原型 模式 并 不 是 正 交 
的 。 现 在 用 仿 逆 规 则 再 来 计算 。 
pseu = inv(P’* P) * P’ 
wp = P pseu 
ap = hardlims( wp pt) 
ap! 
ans = 
ot + mi í i >f i = 
请 注意 : 该 网 络 响应 与 p, 相等。 这 是 正确 的 响应 吗 ? 通常 希望 啊 应 为 与 输 入 模式 最 接 
近 的 原型 模式 。 在 本 题 中 ，p 与 pb p 的 Hamming 距离 均 为 2， 只 有 与 p 的 Hamming FF 
离 为 1。 因 此 ， 仿 逆 规 则 产生 了 正确 的 啊 应 。 
请 用 其 他 测试 输入 验证 是 否 存 在 仿 道 规则 比 Hebb 规则 产生 更 好 绪 果 的 其 他 情 痪 。 
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P7.4 考虑 图 7-9 中 的 三 个 样本 模式 。 
(i) 用 Hebb 规则 设计 一 个 感知 机 网 络 识别 这 三 个 模式 。 
(ii) 求 该 网 络 对 图 7-9 中 模式 p, 的 响应 ， 并 判断 该 啊 应 是 否 正确 。 





te 

Ci) 按照 前 面 例题 的 做 法 ， 将 这 些 模式 转换 成 如 下 向 量 : an 
1 ] _1 | Pt 
| l a | =l 

P; = 1 p> = _ { P; = = Pp, = 1 lili 


l ] l - 1 


现在 需要 选择 每 一 原型 输入 向 量 的 期 望 输出 向 量 。 由 于 有 三 个 原型 向 量 需 要 区 分 ， 所 以 
输出 向 量 需 要 两 个 元 素 。 假 设 三 个 原型 输入 向 量 的 期 表 输 出 分 别 为 


b= [el peel 


GEE: 这 种 选择 是 任意 的 ， 可 以 为 每 个 向 量 设 定 1 和 - ! 的 不 同 组 合 。 
F722 ”所 设计 的 感知 机 网 络 如 图 7-10 所 示 。 


输入 XT BR BEAR PR E 





a = hardlims(Wp) 


图 7-10 例题 P7.4 的 感知 机 网 络 





然后 用 Hebb 规则 确定 权 值 矩阵 : 
1 1 1 1 
a S a. =l A ae Ly a 4 E 
“Lsi I «i o td 3 af sl 
si =i ei 
(ii) 相应 于 测试 输入 模式 的 网 络 啊 应 为 : 


( | 


a. sd el =] =a] 
a= maine | i | 


partis (| -5 |) = [23] = 
Da We take 
网 络 响应 表明 测试 输入 模式 与 p 最 接近 。 这 是 正确 的 ， 因 为 到 p 的 Hamming 距离 为 
1， 而 到 p, 和 p, 的 Hamming 距离 都 是 3。 
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P7.5 假设 针对 0 个 长 度 为 RR 的 正 交 样本 向 量 ， 用 Hebb 规则 设计 了 一 个 线性 自 联想 存 
储 器 。 向 量 元 素 为 1 或 -1。 
(i) 证 明 0 个 原型 模式 为 权 值 矩阵 的 特征 癌 量 。 7-23 
(ii) 求 出 权 值 矩阵 的 另外 (R - 0 ) 个 特征 向 量 。 
解 
(i) 设 原 型 器 量 为 : 
pi,，p2， ,Po 
由 于 这 是 一 个 自 联 想 存 储 器 ， 这 些 回 量 是 输入 回 量 ， 也 是 期 望 输出 回 量 。 所 以 有 


T = [popopo] P= [pp po| 
如 果 用 Hebb HURAE RE, HTK (7.8) FI 4G 
W = TP’ = Dp 
现在 ， 将 一 个 原型 向 量 作 为 网 络 输 入 ， 则 有 
a = Wp, = ( (pp) )p, = Lp, (ep. Py) 
因为 这 些 模式 正 交 ， 所 以 上 式 可 简化 为 


a = p,(p, Pi) 
又 由 于 p, 的 每 个 元 素 只 能 取 1 或 - 1， 求 得 
a = ph 
综合 以 上 结果 
Wp, = Rp, 


这 表明 : p 是 W 的 特征 向 量 ， 而 R URE. BNR Ra eR A le Fe 
征 值 的 W 的 一 个 特征 问 量 。 
(ii) 注意 到 多 重 特征 值 R 有 一 个 与 其 相关 的 0 维特 征 空间 : 由 0 个 原型 向 量 生成 的 
子 空 间 。 现 在 考虑 与 特征 空间 正 交 的 子 空间 。 这 个 子 空间 内 的 每 个 向 量 都 应 与 每 个 原型 回 量 
正 交 。 正 交 子 空间 的 维 数 为 R - 0 。 考 虑 这 个 正 交 空间 的 任意 一 个 基 集 ; A 
Z1,%2,°"*,ZR_Q 
任 取 一 个 基 疝 量 作用 于 网 络 ， 可 得 


a = Wz, = ( (pp ) zx = dp, z,) = 0 
由 于 每 个 z 与 每 个 p。 1Ex, 这 也 说 明 Zi, 为 W 的 以 0 为 特征 值 的 特征 向 量 。 
综 上 所 述 ， 权 值 矩阵 有 两 个 特征 值 R 和 10。 也 就 是 说 ， 由 原型 向 量 生成 的 空间 中 的 任意 
向 量 都 将 被 扩大 R 售 ， 而 任何 与 原型 向 量 正 交 的 向 量 都 将 被 置 为 零 。 在 第 18 章 讨论 Hop- 


field 网 络 的 性 能 时 ， 我 们 还 会 用 到 这 个 概念 。 
P7.6 本 章 迄 今 为 止 所 使 用 的 网 络 都 不 包含 偏 置 向 量 。 考 虑 设计 能 够 识别 下 面 模式 的 感 


知 机 网 络 (图 7-11): 
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输入 对 称 硬 极限 层 





a = hardlims(Wp + b) 
图 7-11 单 神经 元 感知 机 


Ci) 为 什么 求解 这 个 问题 需要 偏 置 值 ? 
Ci) 用 仿 逆 规则 设计 一 个 包含 偏 置 值 的 网 络 求解 此 问题 。 


解 
_7-25 | (i) 在 第 3 章 和 第 4 章 中 ， 感 知 机 的 判定 边界 是 由 下 式 定 义 的 一 条 直线 ， 
Wp + b=0 
如 果 不 存 在 偏 置 值 ， 那 么 5 =0， 判 定 边 界定 义 由 
Wp=0 


定义 ， 必 定 是 一 条 经 过 坐标 原点 的 直线 。 现 在 考虑 本 题 中 给 出 
的 两 个 向 量 p 和 p,。 它 们 表示 在 图 7-12 中 ， 图 中 还 有 一 条 经 
过 坐标 原点 的 任意 判定 边界 。 显 然 ， 任 何等 过 坐标 原点 的 判定 
边界 线 都 不 可 能 将 向 量 p 和 p, 分 开 。 所 以 需要 引信 偏 置 值 来 
求解 本 问题 。 

(ii) 为 了 在 存在 偏 置 项 时 使 用 仿 逆 规则 (或 Hebb ALM), 
应 该 将 偏 置 值 看 成 是 输入 为 1 的 另外 一 个 权 值 (如 在 所 有 网 络 
图 形 中 所 示 那 样 ) ， 然 后 对 输 和 人 向 量 添加 一 个 1 作为 最 后 元 素 : 





图 7-12 问题 求解 的 图 形 表示 














1 2 
pi1=|1|，p=|:? 
1 1 
假设 这 两 个 输入 向 量 的 期 望 输出 分 别 为 : 
上 1 一 1，t2=-1 
所 以 
1 2 
at 7 T={1 -1 
1 1 
LEM E : 
-1 
, 1 111 1 1 1 r ra -0.5 -0.5 2 
二 p 2 1 TL 2 J-i 9 |， 2 | 0.5 -1 
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那么 添加 元 京 后 的 权 值 矩阵 为 : 
-0.5 -0.5 2 
W = TP* = 1 -1 0 5 0 5 _ 1 = |-1 一 ] 3] 
BUS, Al Sone (eS A E E : 7-26 
W=(-1 -1j, =d 


由 该 权 值 矩 阵 和 偏 置 值 形 成 的 判定 边界 如 图 7-13 所 示 。 这 个 边界 将 两 个 原型 向 量 分 离 
FT. 





图 7-13 求解 例题 P7.6 的 判定 边界 


P7.7 迄今 为 止 的 所 有 模式 识别 的 例子 中 都 是 用 1 和- 1 的 向 量 来 表示 模式 ， 其 中 “1" 代 
表 图 像 元 素 的 瞳 象 素 ,“ - 1” 代 表 亮 象 素 。 如 果 用 “1”" 和 “0” 来 表示 ， 双 将 如 何 Hebb 规则 应 
作 什 么 改变 ? 

解 

首先 介绍 一 些 用 来 区 别 这 两 种 不 同 表示 (通常 指 双 极 表示 法 | - 1，1} 和 二 进 制 表示 法 |0， 
11) 的 符号 。 原 型 输入 /输出 同 量 的 双 极 表示 法 记 为 


[pp 和 poyto| 
二 进 制 表示 法 记 为 
Ipoti ipot ipa tg! 
两 种 表示 法 的 关系 为 
Py = ZP +a) ps = 2p, -1 
其 中 1 为 1 的 向 量 。 


然后 我 们 确定 二 进 制 联想 网 络 的 形式 。 这 里 使 用 如 图 7-14 所 示 的 网 络 ， 它 与 图 7-3 所 
示 的 双 极 联想 网 络 的 形式 相 比 有 两 点 不 同 。 首 先 ， 它 使 用 hardlim 的 非 线 性 特性 ， 而 不 是 
hardlims ， 这 样 可 以 使 其 输出 为 0 或 1。 其 次 ， 它 使 用 了 偏 置 向 量 。 需 要 偏 置 向 量 是 因为 所 
有 的 二 进 制 向 量 都 落 在 向 量 空间 第 I 象限， 故 穿 过 坐标 原点 的 边界 线 并 不 保证 一 定 能 够 分 离 |7-27 
开 所 有 的 模式 (参见 例题 P7.6). 

下 一 步 是 确定 该 网 络 的 权 值 矩阵 和 偏 置 向 量 。 如 果 要 使 图 7-14 所 示 的 二 进 制 网 络 具有 
与 图 7-3 所 示 双 极 网 络 具有 同样 的 有 效 响应 ， 必 须 使 两 个 网 络 的 净 输 入 n 相同 : 

Wp +b = Wp 
这 样 能 够 保证 当 双 极 网 络 产 生 “1” 时 二 进 制 网 络 也 产生 “1”，、 当 双 极 网 络 产 生 ” - 1 时 ， 
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输入 We A PR Fas 





a = hardlim(Wp'+ b) 


图 7-14 二 进 制 联想 网 络 
二 进 制 网 络 产生 “0 。 
WRH p 的 一 个 函数 代替 py ， 我 们 求 得 
w(Sp+ 5 i)+b=>Wp+5W1+b = Wp 
所 以 ， 为 了 生成 和 双 极 网 络 相 同 的 输出 结果 ， 应 该 选择 
W =2W, b=- WI 


其 中 W 为 双 极 权 值 矩阵 。 


7.5 ARE 


本 章 有 两 个 主要 目的 。 第 一 ， 介 绍 一 个 影响 次 远 的 神经 网 络 学 习 规 则 :， Hebb 规则 。 它 
是 最 早 提出 的 神 径 网 络 学 习 规 则 之 一 ， 而 且 将 继续 影响 最 近 所 提出 的 一 些 神 经 网 络 学 习 理 
论 。 第 二 ， 如 何 用 前 两 章 所 阐述 的 线性 代数 概念 对 该 学 习 规 则 的 性 能 进行 诠释 。 这 也 是 本 记 
的 主要 目的 之 一 。 我 们 意 在 揭示 某 些 重要 的 数学 概念 如 何 构成 所 有 人 工 神 经 网 络 运行 的 基 
础 。 我 们 将 继续 使 数学 思想 与 神经 网 络 应 用 紧密 结合 ， 进 而 使 读者 对 二 者 的 理解 能 够 得 以 次 
化 。 

在 第 13 章 和 第 18 章 中 还 会 用 到 Hebb 规则 。 第 18 章 将 应 用 Hebb 规则 设计 递归 联想 存 
储 咽 网 络 Hopfield 网 络 。 

接 下 来 的 两 章 将 介绍 一 些 对 理解 第 10 章 和 第 11 章 中 的 两 个 学 习 规 则 而 言 至 关 重 要 的 数 
学 知识 。 这 些 学 习 规则 的 属于 性 能 学 习 一 类 ， 因 为 它们 都 是 为 了 尽量 使 网 络 的 性 能 得 到 优 
化 。 为 了 理解 这 些 性 能 学 习 规 则 ， 和 需要 引入 一 些 基 本 的 优化 概念 。 这 和 学 习 Hebb 规则 一 
样 ， 前 面 的 线性 代数 知识 也 将 对 理解 这 些 优 化 问题 的 大 有 神 益 。 


参考 文献 


| Albe72| A. Albert, Regression and the Moore — Penrose Pseudoinverse, New York: Academic 
Press, 1972. 
Albert 的 著作 是 仿 逆 的 基本 特性 及 其 理论 的 主要 文献 ， 同 时 还 包括 了 所 有 主要 的 仿 
逆 理 论 的 证 明 。 
[Ande72] J. Anderson, “A simple neural network generating an interactive memory,’ Mathe- 


matical Biosciences, Vol. 14, pp. 197-220, 1972. 
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Anderson $24 J HRAB FF A aE — PPAR EK AR aE, A HE 9 Hebb 
原理 进行 训练 ， 和 学 习 在 输入 /输出 四 量 之 间 建 立 天 联 关 系 。 他 主要 强调 了 网 络 的 生理 学 
仿生 特性 。Kohonen 发 表 了 一 篇 类 似 的 论文 LKoho72]， 但 是 他 们 是 各 上 生 独 立 完成 了 这 
项 工作 的 。 
' Hebb49 | D. O. Hebb, The Organization of Behavior, New York: Wiley, 1949. 
这 本 重要 的 著作 主要 论述 了 行为 能 由 神经 的 活动 来 解释 。 在 本 书 中 ，Hebb 提出 了 
最 早 的 学 习 规 则 之 一 ， 即 一 种 在 细胞 级 别 上 的 学 习 机 制 。 
. Koho72| T. Kohonen, “Correlation matrix memories,” IEEE Transactions on Computers, 
Vol. 21, pp. 353-359, 1972. 
Kohonen 提出 T —FREKAE ASE KA RA. A Eh RO (tH 
为 Hebb 规则 )。 来 学 习 输 入 /输出 问 量 之 间 的 关联 关系 ， 主 要 强调 网 络 的 数学 结构 。 
Aoderson 在 同一 时 期 发 表 了 一 篇 类 似 的 论文 L Ande72]， 但 是 他 们 是 独立 完成 这 项 工作 
的 。 


习题 T ie 


E7.1 请 考察 图 7-15 所 示 的 样本 模式 。 _ 
Ci) p 和 p, 是 否 正 交 ? 

(ii) 请 运用 Hebb 规则 为 这 些 模式 设计 一 个 目 联 想 
全 网 络 。 KE 
Gii) 使 用 图 7-15 中 所 示 的 输入 模式 p, 来 测试 该 网 
络 的 操作 。 网 络 能 否 达 到 预期 的 目标 ? 请 给 图 7-15 


出 相应 的 解释 。 ae 


E7.2 请 用 仿 逆 规则 求解 E7.1。 





Dy 





E7.3 试用 Hebb 规则 确定 如 图 7-17 所 示 的 感知 机 网 络 的 _ = 
权 值 矩阵 ， 以 识别 图 7-16 所 给 出 的 模式 。 图 7-16 练习 7 .3 
输入 对 称 硬 极限 层 的 感知 机 网 络 





a = hardlims(Wp) 


图 7-17 
E7.4 在 例题 P7.7 中 阐述 了 当 原 型 向 量 为 二 进 制 形式 ( 同 双 极 形式 相反 ) 时 如 何 用 Hebb 
规则 训练 网 络 。 请 用 二 进 制 形 式 表 示 原 型 向 量 求解 E7.1。 说明 这 科 二 进 制 网 络 的 


响应 与 原来 的 双 极 网 络 的 啊 应 相等 。 
E7.5 试 证 明 ， 如 果 将 Hebb 规则 确定 的 自 联 想 器 的 权 值 和 矩阵 的 对 角 线 元 率 设 置 为 0， 网 
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络 仍然 能 够 工作 。 也 即 权 值 矩 阵 由 下 式 确 定 ; 
7-31 W = Pp’ - OI 

其 中 Q 为 原型 问 量 个 数 。( 提 示 : 证 明 原 型 向 量 仍 为 新 的 权 值 和 矩阵 的 特征 向 量 ,) 
E7.6 有 三 个 输入 /输出 原型 向 量 对 : 


fe = fope sihe = fife he [i)e 


Ci) 请 说 明 ， 除 非 网 络 使 用 一 个 偏 置 值 ， 否 则 这 个 问题 无 法 求解 。 
(ii) 请 用 仿 首 规则 设计 一 个 处 理 这 些 原 型 向 量 的 网 络 。 证 明 网 络 可 以 正确 地 转 
换 这 些 原型 问 量 。 
E7.7 考虑 下 列 关 于 Hebb 规则 和 仿 道 规则 的 问题 ， 一 个 权 值 矩阵 能 存储 多 少 原 型 模式 ? 
请 用 7.2.4 节 讨 论 的 数字 识别 问题 实验 来 测试 该 问题 。 从 数字 “0” 和 和 “1” 开始。 一 
次 加 一 个 数字 直到 6 为 止 ， 测 试 当 随机 改变 2，4 和 6 个 象 素 时 网 络 能 够 正确 重 构 
数字 的 次 数 。 
Ci) 首先 用 Hebb 规则 生成 数字 “0” 和 “1” 的 权 值 矩阵 。 然 后 随机 地 改变 每 个 数字 
的 2 个 象 素 ， 并 将 带 品 声 的 数字 输入 到 网 络 。 重 复 此 过 程 10 次 ， 记 录 网 络 
输出 几 产生 正确 模式 (无 噪声 数字 ) 次 数 所 占 的 百分比 。 改 变 每 个 数字 的 4 
个 象 素 和 6 个 象 素 ， 重 复 上 述 实 验 。 然 后 用 数字 “0”“17” 和 “2”， 完 全 重复 
上 述 过 程 。 实 验 一 直 进 行 下 去 ， 每 次 一 个 数字 ， 直 到 用 数字 “0” 到 “6” 的 所 
有 数字 测试 网 络 为 止 。 完 成 全 部 测试 后 ， 就 能 画 出 表示 重 构 错 误 与 存储 数 
字 个 数 百 分 比 的 三 条 曲线 ， 每 条 曲线 分 别 对 应 于 2 个 、4 个 和 6 个 象 素 铺 
误 。 
[7-32 | (ii) 请 用 仿 逆 规则 重复 (i)， 并 比较 两 种 规则 的 实验 结果 。 
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8.1 目的 


本 章 介绍 的 是 一 类 称 为 性 能 学 习 的 神经 网 络 训练 的 基础 知识 。 神 经 网 络 有 几 种 不 同类 型 
的 学 习 规 则 ， 如 联想 学 习 ( 参 见 第 7 章 的 Hebb 学 习 ) 和 竞争 学 习 (将 在 第 14 章 中 讨论 ) 。 性 能 
学 习 是 另 一 类 重要 的 学 习 规则 ， 其 目的 在 于 调整 网 络 参 数 以 优化 网 络 性 能 。 下 面 两 章 将 介绍 
性 能 学 习 开发 的 背景 知识 ， 而 性 能 学 习 的 具体 细节 则 将 在 第 10 章 和 第 11 章 详细 讨论 。 本 音 
的 主要 目的 是 研究 性 能 曲面 ， 并 确定 性 能 曲面 存在 极 大 点 和 极 小 点 的 条 件 。 第 9 章 将 继续 讨 
论 定位 极 大 点 和 极 小 点 的 过 程 。 


8.2 理论 和 实例 


性 能 学 习 有 几 种 不 同 的 学 习 规 则 可 以 归 类 于 性 能 学 习 ， 本 章 将 介绍 其 中 两 种 ， 它 们 的 
区 别 在 于 训练 网 络 时 为 优化 网 络 性 能 而 调整 网 络 参 数 ( 权 值 和 偏 置 值 ) 的 方法 不 同 。 

性 能 指数 ”这 种 优化 过 程 分 两 个 步骤 进行 。 第 一 步 是 定义 “性 能 "(performance) 的 含义 。 

言 之 ， 需 要 找到 一 个 衡量 网 络 性 能 的 定量 标准 ， 即 性 能 指数 ， 性 能 指数 在 网 络 性 能 良好 时 

很 小 ， 反 之 则 很 大 。 在 本 章 以 及 第 9 草 ， 我 们 都 假设 性 能 指数 是 已 知 的 。 第 10 章 和 第 11 章 
将 讨论 性 能 指数 的 选择 方法 。 

优化 过 程 的 第 二 步 是 搜索 减 小 性 能 指数 的 参数 空间 (调整 网 络 权 值 和 偏 置 信 )。 本 章 将 研 
究 性 能 曲面 的 特性 ， 并 建立 确保 极 小 点 ( 即 所 寻求 的 最 优点 ) 存 在 的 条 件 。 所 以 在 本 章 将 了 解 
性 能 曲面 的 一 些 概 狐 ， 第 9 章 则 将 给 出 确定 最 优点 的 过 程 ， 


8.2.1 来 勒 级 数 


泰勒 级 数 展开 不 妨 把 要 最 小 化 的 性 能 指数 用 也 数 R(x) 表示， 其 中 x 是 要 调整 的 参 

数 。 假 定性 能 指数 是 一 个 解析 函数 ， 它 的 各 级 导数 均 和 存在。 那么 ，F(x%) 可 以 表示 成 某 些 指 
定点 x” 上 的 泰勒 级 数 展 开 : 

F(x) = F(x") + F(a) 


(x—-x ) 


x= x* 


ba wt (8.1) 





工业 
*4 dx 
1 d’ 
ta! dx” 
通过 限定 泰勒 级 数 展开 项 的 数量 ， 可 以 用 泰勒 级 数 近 似 估 计 性 能 指数 。 例 如 设 
F(x) = cos( x) (8.2) 
F(x )fE x* =O 点 的 泰勒 级 数 展开 式 为 


F(x) = cos(x) = cos(0) ~ sin(0)(x - 0) = cos(0)(x s0) 








F(x)| (a ~~ to 
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j sin(0)(x SON pan 


(8.3) 
= be gas a, 
F(x) 的 0 阶 近 似 ( 仅 含 x 的 0 次 方 项 ) 是 
其 2 阶 近似 为 
F(x) = F(x) = L- 52 (8.5) 
(注意 此 式 的 0 阶 近似 与 1 阶 近似 相等 ， 因 为 1 阶 导数 为 0,) 其 4 阶 近似 为 
ed Filet) 3 inte (8.6) 


2 24 


图 8-1 所 示 为 F(x) 及 其 三 个 近似 的 图 形 。 


1.8 
fw 


VV 





图 8-1 余弦 函数 及 其 泰勒 级 数 近 似 


从 图 中 可 以 看 出 ， 如 果 x 趋 近 于 x* =0， 所 有 的 近似 都 是 精确 的 。* 离 *“ 越 远 ， 则 只 
有 高 阶 近似 是 精确 的 。2 阶 近似 比 0 阶 近似 的 精度 范围 更 大 ，4 阶 近似 的 精度 范围 又 大 于 2 
阶 近似 的 精度 范围 。 式 (8.1) 可 以 说 明 这 种 现象 。 级 数 中 每 个 相 邻 的 后 继 项 都 包含 (x - x”) 
的 高 次 项 ，x 越 趋 近 于 x” ， 这 些 项 将 按 几 何 级 数 减 小 。 

我 们 将 运用 这 种 性 能 指数 的 泰勒 级 数 近 似 方法 ， 研 究 可 能 的 最 优点 的 邻 域内 性 能 指数 的 
特性 。 


试验 余弦 函数 泰勒 级 数 展开 请 用 Neural Network Design Demonstration Taylor 
Series (nnd8ts) 。 





向 量 的 情况 
神经 网 络 的 性 能 指数 并 不 仅 是 一 个 纯 量 x KRR, CERA NASR EAN AUE E 
值 ) 的 函数 ， 参 数 的 数量 可 能 是 很 大 的 。 因 此 ， 需 要 将 泰勒 级 数 展开 形式 扩展 为 多 变量 形式 。 


考虑 下 列 n JURA. 
F(x) = FC x1, Xs Xn) (8.7) 


这 个 函数 在 点 x* 的 泰勒 级 数 展开 为 
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F(x) = F(x") +5 F(x) | | _ cea at) + FOO) Ts aa xy) 
a Pt LRD) TEENEI Fr Zaro] (xi -- xr) (8.8) 
+ Fs) ela- artar- ai) + 





梯度 mR 这 个 表达 式 有 些 繁杂 ， 把 它 写 成 矩阵 形式 会 清晰 些 ; 


F(x) = FX") +0 F(T) » (x —- x") 
= (8.9) 
+ (x x)T UF) |e (x= x") "O 


这 里 YF(x) 为 梯度 ， 其 定义 为 
T 
VF(x) = [xo F(x) 了 F(R) e 5 FO) (8.10) 


VF (x) ak REE, EMH 





32 
E h a F(x) Inda Y 
32 J2 ( 
V2F(x) =| aema ** 25 Fw UO Jamaa (8.11) 
E fi» =e 
EET IX, rer dx? 


梯度 和 赫 森 矩阵 对 于 我 们 理解 性 能 曲面 非常 重要 。 下 节 将 讨论 这 两 个 概念 的 实际 蕊 义 。 


试验 二 元 函数 的 泰勒 级 数 展开 请 用 Neural Network Design Demonstration Vector 
Taylor Series (nnd8ts2) 。 





8.2.2 方向 导数 
梯度 的 第 ;个 元 素 3F(x)vax;， 是 性 能 指数 F Ex, 轴 的 一 阶 导 数 。 替 森 矩 阵 的 第 1 个 
HATCHES F(x) /d x? 是 性 能 指数 眉 沿 *; 轴 的 二 阶 导 数 。 怎 样 求 函数 在 任意 方向 上 的 一 阶 寻 


数 ? 
方向 导数 ” 设 p 为 沿 所 求 导数 方向 上 的 一 个 向 量 ， 此 方向 导数 可 由 下 式 求 出 : 





ee AS (8.12) 
| p | 
沿 p 的 二 阶 导数 也 可 以 写成 
T 2 
Con (8.13) 
I pll? 


为 了 说 明 以 上 概念 ， 考 虑 函数 
F(x) = x? +223 (8.14) 
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假设 求 沿 向 量 p= [2 ” -1] 的 方向 在 点 x* =[0.5 0.5] 处 的 导数 。 首 先 求 在 x 的 梯度 ， 


d 
TP 


| 
) 7 
x9 I 
volea | g es 
z FERD) ， = 
'Xx=X 
AJI [8] p 的 导数 也 可 求 出 : 


, _ 
p V F(x) 2 0) a E 


lpi o | 2 | /3s 
人 

因此 函数 经 过 点 六 在 p 方 向 上 的 斜率 为 零 。 为 什么 会 是 这 个 结果 呢 ? 如 何 解释 这 种 现 
象 ? 考察 式 (8.12) 关 于 方向 导数 的 定义 就 能 发 现 其 分 子 部 分 是 方向 向 量 与 梯度 的 内 积 。 因 
此 ， 任 柯 与 梯度 正 交 的 方向 上 的 斜率 都 为 零 。 

最 大 和 斜率 在 什么 方向 上 ” 当 方 向 向 量 与 梯度 的 内 积 最 大 时 斜率 最 大 ， 故 当 方 向 向 量 与 梯 
度 同 向 时 会 出 现 最 大 斜率 (注意 方向 向 量 的 长 度 对 此 没有 影响 ， 因 为 它 已 被 规格 化 。) 这 种 情 
MER 8-2 的 F(x) 的 平面 轮廓 线 图 和 3-D 图 中 表 圳 无遗。 在 轮廓 图 中 ， 从 某 个 点 x” 出 发 的 
5 个 向 量 方 向 各 异 ， 各 个 向 量 的 一 阶 方向 导数 也 已 标示 出 来 。 沿 梯度 方向 的 导数 最 大 ， 而 与 
梯度 正 交 的 方向 上 的 导数 为 零 (与 轮廓 线 相 切 ) 。 





图 8-2 二 次 项 数 及 其 方 网 导数 


试验 方向 导数 请 用 Neural Network Design Demonstration Directional Derivatives 
(nnd8dd) . 





8.2.3 极 小 点 


回忆 一 下 ， 性 能 学 习 的 目的 是 使 性 能 指数 得 到 优化 。 本 节 将 定义 最 优点 的 狠 义 。 设 性 能 
指数 的 极 小 点 即 最 优点 。 对 于 最 大 化 问题 很 容易 修改 此 定义 。 

强 极 小 点 PRA x* 为 F(x) 强 极 小 点 ， 如 果 存 在 某 个 纯 量 85>0,， 使 得 当 58> || Ax! >0 
时 ， 对 所 有 Ax 都 有 F(x* ) < F(x” + Ax) RV. | 
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te GL, MMRDA RIERA AEAEE TV) RRA FaR. 

全 局 极 小 点 RAx 为 F(x) 的 惟一 的 全 局 极 小 点 ， 如 果 F(x”) < F(x* +Ax) 对 所 有 
Ax 尖 0 都 成 立 。 

对 于 一 个 强 极 小 点 x* ， 在 x" 较 小 的 邻 域 之 外 可 能 会 存在 比 F(x") EDN, x 又 
称 为 局 部 极 小 点 。 对 于 一 个 全 局 极 小 点 ，F (Xx) 在 参数 空间 内 任何 其 他 点 的 值 都 比 F(x* ) 大 。 

Bm BAX 为 F(x) 的 弱 极 小 点 ， 如 果 它 不 是 一 个 强 极 小 点 ， 且 存在 某 个 纯 量 8 
> 0， 使 得 对 于 所 有 5> || Ax || >0 的 Ax 都 有 F(x”) < F(x” + AX) 成 立 。 [8-7 | 

从 一 个 弱 极 小 点 无 论 向 什么 方向 移动 ， 函 数值 不 会 减少 ， 但 可 能 沪 茶 些 方向 的 值 不 变 。 

人 例如， 考虑 下 列 纯 量 哨 数 : 

F(x) = 3x4- 7x7 - S42 +6 (8.17) 

图 8-3 所 示 为 该 函数 图 象 。 注 意 : 大 约 在 - 1.1 和 LIAR), BRE 

点 的 局 部 邻 域 内 都 增 大 。1.1 处 的 点 是 全 局 最 小 点 ， 因 为 没有 其 他 点 的 水 数值 比 该 点 的 函数 


值 更 小 。 
这 个 函数 不 存在 弱 极 小 点 。 为 了 说 明 呢 极 小 点 我 们 在 下 面 举 一 个 二 维 的 例子 。 


| 
F(x} = 3x" ~ 7x" -5x+6 | 


去 y 


局 部 极 小 值 
了 


图 8-3 ”局 部 极 小 点 和 全 局 极 小 点 举例 


现在 考虑 向 量 情形 。 首 先 考虑 下 列 函数 ， 
F(x) = (xa — XI1) + 82,2") — zi + %2+3 (8.18) 

轮廓 线 图 图 8-4 为 该 函数 的 轮 廊 线 图 (函数 值 为 常数 时 的 一 系列 曲线 和 3-D nn 
(函数 值 小 于 12)。 可 以 看 出 函数 有 两 个 强 局 部 极 小 点 ， 一 个 在 ( - 0.42，0.42)， 一 个 在 
(0.5$，- 0.S$)。 全 局 极 小 点 为 (0.$S$，- 0.55)。 

鞍点 “该 函数 在 ( -0.13，0.13) 的 点 有 其 他 有 趣 的 特点 。 由 于 在 该 点 邻 域内 曲面 的 形 
状 ， 它 称 为 一 个 鞍点 (saddle point)。 它 的 特点 在 于 : 沿线 xi = - r: 该 靶 点 为 一 个 局 部 极 大 
点 ， 但 沿 一 条 与 此 线 垂直 的 线 它 又 是 局 部 极 小 点 。 在 例题 P8.2 和 P8.5 中 我 们 将 详细 讨论 
这 种 情况 。 





Æ Neural Network Design Demonstration Vector taylor Series (nnd8ts2 ) 中 也 使 用 
了 这 个 函数 。 





YEARS TAFT, A558 FRY AR: 
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图 8-4” 极 小 点 和 鞍点 的 向 量 实例 


F(x) = (x? —~ 1.5%, 4%. + 24) x? (8.19) 
图 8-5 给 出 了 这 个 函数 的 轮 廊 线 图 和 3-D 图 。 可 以 看 出 沿 x =0 的 任意 点 都 是 弱 极 小 点 。 
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图 8-5 弱 极 小 点 实例 


8.2.4 优化 的 必要 条 件 
定义 了 最 优点 ( 极 小 点 ) 后 ， 必 须 给 出 这 种 点 需要 满足 的 条 件 。 这 里 还 要 用 到 泰勒 级 数 


T 展开 来 推导 这 些 条 件 
F(x) = F(x" + Ax) = F(x") +V F(T) «Ax 


(8.20) 
+ FAK! VF (x) gt a te 
此 处 Ax =x-x" (8.21) 
1. 一 阶 条 件 
如 果 || Ax | 很 小 ， 则 式 (8.20) 中 的 高 阶 项 可 以 省 略 ， 有 F(x) 的 近似 表达 式 
F(x* + Ax) = F(x*) + YF(x)’ A | (8.22) 


要 使 x* 为 极 小 点 ， 则 要 使 函数 在 Axx) 时 增 大 或 不 减 小 。 要 实现 这 个 目标 ， 则 式 
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(8.22) 中 的 第 二 项 不 能 为 负 ， 即 


VEX)? » AX > 0 (8.23) 
X=X 
但 是 ， 如 果 这 一 项 为 正 ， 即 
VF(x)?| » Ax > 0 (8,24) 
A—X 
则 可 推导 出 : 
F(x” - Ax) = F(x") - VF(x)T| «Ax < F(x") (8.25) 


DHSRWAHTIE, HA x 为 一 个 极 小 点 。 所 以 要 使 式 (8.23) 成 立 ， 式 (8.24) 就 不 能 
成 立 ， 惟 一 选择 只 有 


VF(x)" Ax =0 (8.26) 
该 式 对 所 有 的 Ax 都 必须 成 立 ， 即 
VF(x)| = 0 (8.27) 


驻 点 所以， 一 个 极 小 点 处 的 梯度 一 定 为 零 。 这 就 是 局 部 极 小 点 的 一 阶 必 要 条 件 (不 是 
充分 条 件 )。 所 有 满足 式 (8.27) 的 点 称 为 驻 点 (stationary point) 。 

2. 二 阶 条 件 

设 有 一 个 驻 点 x*。 由 于 F(x) 在 驻 点 的 梯度 为 0， 则 泰勒 级 数 展 式 为 


F(x* + Ax) = F(x") 4 JAV 2F (x) AR (8.28) 
X— X 


同 前 面 一 样 ， 这 里 只 考虑 那些 在 x* 的 很 小 的 邻 域内 的 点 ， 以 使 | Ax | 很 小 且 f(x) 能 用 式 
(8.28) 的 前 两 项 近似 。 所 以 ， 如 朱 
AxTV “F(x) ~_x*AxX>0 (8.29) 


则 在 x* 将 存在 强 极 小 点 ， 
EZER ETER 要 使 此 式 对 任意 Axz0 R, MRE REUN ERHET, 
(根据 定义 ,一 个 正定 矩阵 定义 为 : 对 任意 的 向 量 zz0 有 
Z’ ÀZ > 0 (8.30) 
如 果 对 任意 向 量 z， 有 
2z'Az <0 (8.31) 
WK AWE ELBE, WUE ERM. MR AT RE IE. 
WE HECEE; MRA REE, WAAR IEEE.) 
充分 条 件 ”一 个 正定 的 赫 森 矩阵 是 一 个 强 极 小 点 存在 的 二 阶 充分 条 件 ， 但 不 是 必要 条 
件 、 如 果 泰 勒 级 数 的 二 阶 项 为 零 ， 但 三 阶 项 为 正 ， 仍 可 能 存在 强 极 小 点 。 所 以 强 极 小 点 存在 
的 二 阶 必要 条 件 是 赫 森 矩阵 为 半 正 定 和 矩阵 。 
为 了 说 明 这 些 条 件 ， 考 虑 下 列 二 元 了 负数 : 
F(x) = xf + x? (8.32) 


为 了 求 出 驻 点 ， 先 求 梯度 
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4x? 
V F(x) -| | = 0 (8.33) 
2x» 
故 只 有 惟一 驻 点 x" =0. WEXKOKNAIF, WREN 
| 12x3 0 [° 4 
vir) -| | ND (8.34) 


RED EEEE, Bx” = 0 为 强 极 小 点 的 必要 条 件 存在 。 这 里 无 法 从 一 阶 和 二 阶 条 
件 确定 该 点 为 一 个 极 小 点 ,但 这 种 可 能 性 是 存在 的 。 事实 上 ， 尽 管 这 里 赫 森 和 矩阵 是 半 正 害 
的 , 但 x”=0 仍 是 一 个 强 极 小 点 ， 只 是 目前 无 法 从 已 讨论 的 条 件 证 明 。 

综 上 所 述 ，x "为 F(x) 的 强 极 小 点 或 弱 极 小 点 的 必要 条 件 是 : 


VF(x)| ， = 0 和 Vv ?F(x)| ”为 半 正定 


x* 为 F(x) 的 强 极 小 点 的 充分 条 件 是 : 
VF(x)! 4 = OMV*F(x)| 为 正定 








X= X 
8.2.5 二 次 函数 


本 节 介 绍 一 种 通用 的 性 能 指数 一 一 二 次 函数 。 这 不 仅 因为 二 次 函数 应 用 广汉 ， 而 且 还 因 
为 在 很 小 的 邻 域内 ， 特 别 是 在 局 部 极 小 的 附近 ， 许 多 了 薄 数 可 由 二 次 孙 数 来 近似 。 所 以 有 必要 
花 一 些 时 间 来 考察 二 次 晒 数 的 特性 。 
二 次 函数 ”二 次 函数 的 一 般 形 式 是 
F(x) = +x" Ax +d’x +c (8.35) 


这 里 ARR, (RARER, MA hR FaR RERE, A 
— F!) 
求 该 函数 的 梯度 ， 需 用 到 下 列 梯度 的 性 质 ; 
V (h’x) = V(x"h) =h (8.36) 
此 处 h 为 一 常数 回 量 ， 且 
Vx7Qx = Qx + Q’x = 2Qx (Q 为 对 称 和 矩阵 ) (8.37) 
现在 可 以 计算 F(x) 的 梯度 : 
VF(x) = Ax+d (8.38) 
fre] FEY Sie aa BR SP: 
VF(x) =A (8.39) 
一 次 函数 的 所 有 的 高 阶 导数 为 零 ， 所 以 该 函数 的 泰勒 级 数 展开 的 前 三 项 即 该 函数 的 精确 
表达 ( 见 式 (8.20))。 也 可 以 说 所 有 的 解析 函数 在 一 个 很 小 的 邻 域内 ( 即 当 || Ax | 很 小 时 ) 都 
与 二 次 函数 类 似 。 
款 森 的 特征 系统 
现在 研究 二 次 函数 的 一 般 形态 。 研 究 赫 森 矩 阵 的 特征 值 和 特征 问 量 马 以 得 到 二 次 孙 数 的 
许多 性 质 。 考 虑 以 原点 为 驻 点 且 其 值 为 0 的 二 次 函数 : 
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F(x) = ax" AX (8.40) 

WRITE KUER, SH RAHA SIS OS 6). HAREE A 的 特 

征 向 量 作为 新 的 基 回 量 。 由 于 A AY PRR, PRP SE m E A E (JL[ Brog91]). Pr 
以 可 用 特征 向 量 作 为 列 癌 量 构 成 一 个 和 式 (6.68) 一 样 的 矩阵 : 


B= |z z * ZŁ] (8.41) 
该 矩阵 的 逆 等 于 其 转 置 矩阵 ; 
B`! = B’ (8.42) 
(假定 特征 了 向 量 已 被 规格 化 。) 
进行 基 变 换 ， 以 使 特征 癌 量 成 为 基 向 量 ( 见 式 (6.69))， 新 的 矩阵 A 为 
Ay 0 eae 0 
A’ = [B7AB] = É j 7 i PEN (8.43) 
0 0 和 
其 中 入 ; 为 A 的 特征 值 。 上 式 也 可 写成 
A = BAB’ (8.44) 
我 们 将 用 方向 导数 的 概念 说 明 A 的 特征 值 和 特征 癌 量 的 物理 意义 以 及 如 何 确定 二 次 函 


数 的 曲面 特性 。 
由 式 (8.13) 知 F(x) EAS p FA EN Ow SRA 
p V’F(x)p pAp 


lp ii? ipl? 


(8.45) 





现在 定义 
p = Be (8.46) 


这 里 c 表示 基于 A 的 特征 向 量 的 向 量 p( 见 式 (6.28) 及 其 后 的 讨论 )。 用 这 些 概念 及 式 
(8.44)， 可 将 式 (8.45) 重 写成 


入 ic; 
p Ap —_c7B"(BAB")Be cAc _ 之 ° (8.47) 
2 cB’ Be ~- ee g 
pl 和 
i 


这 个 结果 包含 若干 有 用 的 事实 。 首 先 ， 这 个 二 阶 导数 是 特征 值 的 加 权 平 均 。 所 以 它 总 不 
大 于 最 大 的 特征 值 ， 或 不 小 于 最 小 特征 值 。 换 句 话说 ， 


Amin S PAP < 人 max (8.48) 
ll p ll? 
二 阶 导 数 在 什么 条 件 下 与 最 大 特征 值 相等 ? 如果 选 择 
P = Zmar (8.49) 
这 里 Zna ERARI Ana HREM, eR? 此 时 向 量 eA 
c= B’p = B'z,,,= [0 0 = 0 1 0 0]? (8.50) 


c 仅 在 与 最 大 特征 值 (例如 ，cmos = 1) 相 应 的 位 置 存在 ， 因 为 特征 向 量 是 正 交 的 。 


ww ai bbt. com DODODOOODODOD 


8-13 


128 PLE Pi] $8 1 tf 


FA Zma {CAFR (8.47) PH p, WA 


i 


2 
T 了 AC; 
Z max AZmax _ 


| Z max || ? Da 2 


= Anan 


(8.51) 


所 以 ， 在 最 大 特征 值 的 特征 向 量 方 向 上 存在 最 大 的 二 阶 导数 。 事 实 上 在 每 个 特征 向 量 方 
向 的 二 阶 导 数 都 等 于 相应 的 特征 值 。 在 其 他 方向 上 二 阶 导 数 等 于 特征 值 的 加 权 平 均值 。 特 征 


向 量 方向 上 的 相应 特征 值 即 是 在 该 方向 上 的 二 阶 导数 。 

特征 向 量 定义 了 二 次 交叉 项 为 零 的 坐标 系 。 特 征 向 量 被 
称 为 函数 轮 廊 线 的 主轴 。 图 8-6 所 示 为 这 些 概 念 在 二 维 时 的 
情形 。 该 图 表明 第 一 特征 值 小 于 第 二 特征 值 ， 所 以 在 第 一 特 
征 向 量 的 方向 上 的 曲率 半径 (二 阶 导数 ) 最 小 。 这 意味 着 在 此 
方向 上 的 轮廓 线 之 间 的 距离 更 大 。 在 第 二 特征 向 量 方 向 上 存 
在 最 大 的 曲率 半径 ， 所 以 在 此 方向 上 轮廓 线 之 间距 离 更 小 。 

注意 : 在 图 8-6 中 仅 当 两 个 特征 值 同 号 时 才 有 效 ， 以 确 
保 要 么 存在 一 个 强 极 小 点 ， 要 人 么 存在 一 个 强 极 大 点 。 本 例 中 
的 轮廓 线 都 是 椭 园 。 后 面 我 们 将 讨论 另外 的 例子 ， 其 中 之 一 
的 特征 值 异 号 ， 另 外 一 个 特征 值 为 零 。 

例 一 ， 考 虑 下 列 函数 : 





(A. min } 


图 86 ”特征 向 量 的 二 维 情形 


2 0 
F(x) = X1 + x5 = 5x" i 4 (8.52) 
赫 森 矩阵 及 其 特征 值 和 特征 向 量 为 
2 0 l 0 
V2F(x) = 2 S| i DR s 四 hy = 2h = H (8.53) 


(实际 上 任何 两 个 相互 独立 的 向 量 都 可 以 成 为 本 例 中 的 特征 向 量 。 这 里 的 特征 值 为 多 重 特征 


值 ， 其 特征 向 量 为 一 个 平面 。) 


因为 所 有 的 特征 值 相等 ， 所 以 在 各 个 方向 上 的 曲率 相等 ， 函 数 的 轮廓 线 为 圆 。 图 8-7 所 


示 为 这 个 函数 的 轮廓 线 图 和 3-D 图 (一 个 圆 形 空洞 )。 
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图 8-7 圆 形 空 润 
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现在 考虑 为 一 个 具有 相 异 特征 值 的 例子 ， 其 二 次 函数 为 ; 


2 1 
F(x) = x? + XIX2+ x3 = Harf? ,| > (8.54) 
赫 森 矩阵 及 其 特征 值 和 特征 癌 量 为 
2 1 1 ] 
VFA) = | =ta=| am (8.55) 


(第 6 章 讨 论 过 特征 向 量 不 是 惟一 的 ， 它 们 可 以 加 上 任意 系数 变 成 很 多 个 。) 这 里 ， 在 王 方 向 
上 曲率 最 大 ， 所 以 在 此 方向 上 轮廓 线 密度 较 大 。 图 8-8 RAK RAR 3-D 图 
(一 个 椭圆 空洞 )。 
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图 8-8 AeA ya 
如 果 特 征 值 异 号 会 发 生 什 么 现象 ? SIRTF RA: 





-0.5 -1.5 
F(x) =- rae 一 may 一 pt = ax te x ves (8.56) 
PRE RARER EME I Bt Ze 
WE ee ea ee ee 
V F(x) = ay _0 5 一 1 , À = 2, Z = _] (8.57) 


第 一 个 特征 值 为 正 ， 故 在 zj 方向 上 的 曲率 为 正 。 第 二 个 特征 值 为 负 ， 故 在 丈 方向 上 的 
曲率 为 负 。 由 于 第 二 个 特征 值 的 绝对 值 大 于 第 一 个 特征 值 的 绝对 值 ， 故 在 五 方向 上 的 轮 廊 


线 更 密 。 
8-9 所 示 为 该 函数 的 轮 廊 线 图 和 3-D 图 (为 一 个 伸 长 的 鞍 形 )。 注 意 驻 点 
a (8.58) 


不 是 一 个 强 极 小 点 ， 因 为 赫 森 矩阵 非 正定 。 又 由 于 这 里 的 特征 值 反 号 ， 故 赫 森 矩阵 是 不 确定 
的 ( 见 [Brog91]) ， 因 而 其 驻 点 为 鞍点 。 在 第 一 个 特征 向 量 ( 正 的 特征 值 ) 上 该 点 为 函数 的 极 小 
点 ， 但 是 在 第 二 个 特征 向 量 方向 上 (特征 值 为 负 ) ， 该 点 是 函数 的 极 大 点 。 

最 后 一 个 例子 : 存在 一 个 为 零 的 特征 值 。 其 函数 为 


ee ' |x (8.59) 





F(x) = Zai ~ XIX2 + Za 
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图 8-9 延伸 的 贰 形 
赫 森 矩阵 及 其 特征 值 和 特征 向 量 为 


Vip) =| T dik = 2,2, =|" |= 0m =| 7 | (8.60) 


第 二 个 特征 值 为 零 ， 故 在 丈 方向 上 曲率 为 零 。 图 8-10 FRANK RAR A 3-D 
图 (一 个 驻 点 凹 槽 )。 本 例 中 的 替 森 矩阵 是 半 正 定 的 。 故 在 与 第 二 个 特征 回 量 对 应 的 直线 
Xi = X) (8.61) 
上 存在 一 个 弦 极 小 后 。 | 
对 于 二 次 函数 而 言 ， 强 极 小 点 存在 的 条 件 是 赫 森 矩阵 必须 是 正定 的 。 对 于 高 阶 晒 数 而 言 ， 
8-18 当 赫 森 矩 阵 为 半 正 定时 ， 也 可 能 存在 一 个 强 极 小 点 。( 见 前 面 的 “ 极 小 点 "一 节 中 的 讨论 。) 





图 8-10 HAOR 


试验 其 他 二 次 函数 请 用 Neural Network Design Demonstration Quadratic Function 
(nnd8qf) 。 





现 将 二 次 函数 的 一 些 特点 小 结 如 下 : 

1) 如 果 赫 森 矩 阵 的 所 有 特征 值 为 正 ， 则 函数 有 一 个 强 极 小 点 。 
2) 如 果 款 森 矩 阵 的 所 有 特征 值 为 负 ， 则 天 数 有 一 个 强 极 大 点 。 
3) 如 果 替 森 矩 阵 的 特征 值 有 正 有 负 ， 则 函数 有 一 个 攻 点 。 
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4) 如 果 赫 森 和 矩阵 的 所 有 特征 值 为 非 负 ， 但 菜 些 特征 值 为 零 ， 则 函数 要 : 么 有 一 个 弱 极 小 
ACL 8-10), ZARARA LAE P8.7). 
5) 如 果 赫 森 和 矩阵 的 所 有 特征 值 为 非 正 ， 但 某 些 特 征 值 为 零 ， 则 函数 要 人 么 有 一 个 弱 极 大 
点 ， 要 么 没有 驻 点 。 
注意 在 这 些 讨论 中 为 了 使 问题 简化 ， 我 们 假设 二 次 函数 的 驻 点 在 坐标 原点 ， 而 且 蚂 数 
在 该 点 的 函数 值 为 零 。 这 要 求 式 (8.35) 中 的 d 项 和 < 项 都 为 零 。 如 果 c PETE, MERRER 
在 每 个 点 上 增 大 。 倍 ， 轮 廊 线 形状 不 会 变化 。 当 d 不 等 于 零 ， 但 A 可 道 时 ， 轮 慷 线 的 形状 
不 变 , 但 函数 的 驻 点 移 到 











x* =- Ald (8.62) 
如 果 A 不 可 道 ( 存 在 为 零 的 特征 值 ) 且 d PAF, WANES Cea P8.9). 8-19 
8.3 小 结 
泰勒 级 数 
F(x) = F(x") + VF(x)" x (X —x’) 
X= xX 
+a (x- TVF e Cae a Tee 
梯度 i 
VF(x) = Shr 55, F(x) = Zro | 
赫 森 矩阵 i 
3? 3? 
T ®) o. (x) PEFP F(x) 
3? 32 32 
V*F(x) = PETRAS aah \® dxa x F(x) 
9 3? 9 
Be oa Y) Daa (x) 5 pak (x) 
方向 导数 
一 阶 方向 导数 
p“ V F(x) 
| pl 
二 阶 方向 导数 
p’ V°F(x)p 
| pl? 8-20 
极 小 后 


强 极 小 点 
称 x* 为 F(X) 的 一 个 强 极 小 点 ， 如 果 存 在 纯 量 5>0， 使 得 F(x) < Fx + Ax) Xt BRA KS 
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Ax(8> || x || >0) 都 成 立 。 

全 局 极 小 点 

称 x* 为 F(x) 的 惟一 全 局 极 小 点 ， 如 果 F(x) < F(x+ Ax) STATA AY Ax 关 0 都 成 立 。 

弱 极 小 所 | 

Kx 为 F(x) 的 一 个 弱 极 小 点 ， 如 果 它 不 是 一 个 强 极 小 点 ， 且 存在 纯 量 85> 0， 使 对 于 任 
意 的 满足 5> || Ax || >0 的 Ax,， 都 有 F(x) <= F(x+ Ax). 





最 优化 的 必要 条 件 

一 阶 条 件 

VF(x), » = 0 (FA) 
X= X 
二 阶 条 件 
V| + 0 ( 赫 森 矩阵 为 半 正定 ) 
二 次 函数 
F(x) = xT Ax +d xtc 
梯度 
VF(x) = Ax+d 
赫 森 和 矩阵 
V *F(x) = A 
方向 导数 
T 
p Ap 
8-21 Amin = | | 2 = Amai 

8.4 例题 

P8.1 Æ 8-1 所 示 为 余弦 函数 在 x* =0 的 三 个 近似 。 试 在 点 x* =r/2 重复 该 过 程 。 

解 

将 要 作 近 似 的 函数 为 


F(x) = cos(x) 
F(x ) TER x* = 7/2 的 泰勒 级 数 展开 为 


F(x) = cos(a) = cos( 3) - sin( Z) (x - $) -eol $)(« - F) 
+ gsin( $)(2-F) + 
3 


(到 + 站- 于- 而: 到 
F(x) 的 零 阶 近似 是 
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F(x) = Fo(x) = 0 
F(x ) 的 一 阶 近 似 是 


F(x) 三 阶 近 似 是 
F(x) = F3(x) =- 区 = - Z) 

图 8-11 所 示 为 这 三 个 近似 的 图 象 。 这 里 的 零 阶 近似 非常 差 ， 而 一 阶 近 似 在 一 个 适当 的 
范围 内 是 精确 的 。 将 这 一 结果 与 图 8-1 对 比 发 现 ， 在 那 种 情况 下 ， 我 们 在 一 个 局 部 极 大 点 
x”= 0 展开， 所 以 一 阶 导 数 为 零 。 
检查 泰勒 级 数 在 其 他 点 的 展开 请 用 Neural Network Design Demonstration Taylor 


Series (nnd8ts ) 。 [8.22 | 








图 8-11 在 y=r2 的 余 芒 函数 近似 


P8.2 回 到 图 8-4 Pra eM. BAK RRA ATR RR RAE PRA a 


泰勒 级 数 展开 。 
解 
PR BX AY Be TA Sh 
F(x) = (x, ~ x) T 8x%1%2 = %, + %2 + 3 


欲求 其 二 阶 泰勒 级 数 展开 ， 必 须 先 求 出 F(x) 的 梯度 及 赫 森 和 矩阵。 梯度 为 


9 
Jx, EX) ise x1)? + 8x, -1 





V = 
as 54, F(x) A(x, — x1) + 8x, + 1 
Bh PRPS EA 
3? g? 
JE TET F(x) 
V?F(x) = 32 32 
late = T \®) 
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f | 12( x3 - x1)? -12(".- x1)? | 


~ 12(%, - x1) + 8 12( x2 ~ xi) 
在 点 Xi=[-0.42 0.42] 有 一 个 强 极 小 点 ， 在 允 =10.55 


点 。 在 这 两 点 对 F(x) 进 行 二 阶 泰 勒 级 数 展开 : 
ax- x) + (Xex) 
X X= xX 





F'(x) = F(x!) + VF(x)? n 


2 0.42 -0.42 8.42 
AUPE TOA 
Fi(x) = 4.49 - [~ 3.7128 3.7128]x + Larl ee 
同 理 可 得 x? 点 的 展开 为 
F?(x) =7.41-[11.781 -11.781]x + 和 a 


8-12 所 示 为 原 晒 数 及 其 两 个 近似 的 图 象 。 
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图 8-13 例题 P8.2 的 函数 F(x) 
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Al 8-14 例题 P8.2 的 函数 F(x) 
检查 函数 在 其 他 点 的 泰勒 级 数 展开 请 用 Neural Network Design Demonstration 
Vector Taylor Series (nndq8ts2)。 


P8.3 Se PRM, KEx=(0 0] 处 与 轮廓 线 相 切 的 切线 方程 。 
F(x) = (2+ x) +501 - x1 - x3)? 





解 
解决 这 个 问题 要 用 到 方向 导数 。F(x) 沿 一 条 轮廓 线 的 切线 方向 的 导数 是 什么 ”由 于 轮 

廓 线 是 函数 值 不 变 的 线 ， 则 沿 轮廓 线 的 F(x) 的 导数 为 零 。 所 以 设 方向 导数 为 零 ， 可 求 轮 廊 

线 切线 方程 。 


首先 求 梯 度 : 
2(2 + x1) + 10(1 — x, + x2)(- | 


V = 
Eo | 10(1 = 4), = “$)(- 2x >) 


- 6 + 12%; + 10x} | 
| - 20x, + 20x; x + 20x3 
在 x"=[0 0], 有 
-6 
VF(x*) -| r | 
由 于 F(x) 在 向 量 p 方 向 上 的 导数 是 
p V F(x) 


I p | 
所 以 欲求 穿 过 点 x’ = [0 0]7 且 导 数 为 零 的 切线 方程 ， 可 以 设 在 x FARA RRF 


HE: 
Ax? V F(x" ) = 0 


这 里 Ax=X-X*。 在 这 种 情形 下 有 
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这 个 结果 见 图 8-15, 
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8-26 图 8-15 例题 P8.3 中 F(x) HB 


P8.4 求 下 列 四 阶 多 项 式 的 所 有 驻 点 并 检验 它们 是 否 为 极 小 氮 。 
F(x) = stx? 2x? + 2x +4 
解 
欲求 驻 点 ， 先 令 F(x) RNS: 
-E F(a) = 4x? ~- 2x7 - 4x42 = 0 


使 用 MATLAB 求 这 个 多 项 式 方程 的 根 ， 
coef=[4 -2 -4 2]; 
stapoints = roots( coef); 
stapoints’ 


1.0000 -1.0000 0.5000 
SP F(x) 的 二 阶 导数 为 


a F(x) = 12%7-4x% -4 


各 驻 点 的 二 阶 导数 为 
2 
[iF(1) 4) -FCO 1) = 12),( -3aF(0.5) =- 3) 

所 以 在 1 和 -1 处 存在 强 局 部 极 小 点 (因为 二 阶 导 数 为 正 )， 在 0.5 处 存在 强 局 部 极 大 点 

(因为 二 阶 导 数 为 负 )。 为 了 找 出 全 局 极 小 点 ， 分 别 求 出 在 两 个 局 部 极 小 点 的 函数 值 : 
(F(1) = 4.333), (F(-1) = 1.667) 

故 全 局 极 小 点 在 x = - 1。 但 能 否 肯 定 这 一 点 是 全 局 极 小 点 ? 当 r> oR s>- ofS 

发 生 什 么 现象 ”本 例 中 ， 由 于 x 最 高 次 项 的 系数 大 于 零 且 该 项 为 偶 次 项 (x“), 当 x 一 + 
时 F(x) 都 趋向 w ， 故 可 以 肯定 在 x = - 1 处 存在 全 局 最 小 。 函 数 图 见 图 8-16。 
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% 4 0 1 2 


图 8-16 ”例题 P8.4 的 FOR 


P8.5 例题 P8.2 中 函数 有 三 个 驻 后 : 


E [702] - PAER 0.55 | 
0.42 0.13 


试 检验 这 些 驻 点 是 否 为 局 部 极 小 点 。 
解 
从 例题 P8.2 TARR F(x) 的 赫 森 矩阵 为 
12( x3 - x1)? s12 az= a) Fe 
~ 12(x, — xı) +8 12( x3 — x1) 

和 矩 阵 的 正定 性 可 由 特征 值 确定 。 如 果 所 有 特征 值 为 正 的 ， 则 和 矩阵 为 正定 矩阵 ， 即 存在 一 
个 强 极 小 点 。 如 果 特 征 值 非 负 ， 则 和 拖 阵 为 半 正 定 阵 ， 即 要 么 存在 强 极 小 点 ， 要 人 么 存在 一 个 弱 
极 小 点 。 如 果 特 征 值 一 正 一 负 ， 则 和 抢 阵 为 不 定型 ， 存 在 一 个 较 点 。 

E x 的 南 森 卸 阵 为 





V *F (x) = | 


8 .42 —- 0.42 
V F(x!) = | | 
—~ 0.42 8 .42 


该 矩阵 的 特征 值 是 
| A] = 8.84, Ay 一 8.0 - 


故 一 定 是 一 个 强 极 小 点 。 
FE x’ BAREEN 
0.87 7.13 | 


V'F(e) = f 13 0.87 


该 矩阵 的 特征 值 为 

A, =- 6.26, = 8.0 
所 以 x? 一 定 是 一 个 鞍点 。 在 一 个 方向 上 的 曲率 为 负 ， 在 另 一 个 方向 上 的 曲率 为 正 。 负 的 曲 
率 在 第 一 特征 向 量 方向 上 ， 正 的 曲率 在 第 二 个 特征 向 量 的 方向 上 。 特 征 向 量 为 


Lok 


(注意 ， 这 与 我 们 在 8.2.3 节 的 讨论 一 致 。) 
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在 x aR A 
14.7 - 6.71 


V Fox) = 
-6.71 14.7 


该 矩阵 特征 值 为 
\ = 21.42，) = 8.0 
所 以 x 是 一 个 强 极 小 点 。 
可 用 Neural Network Design Demonstration Vector Taylor Series (nnd8ts2) 检 验 这 
se oe Ro 





P8.6 现在 将 本 章 的 概念 用 于 一 个 神经 网 络 问题 。 见 图 8-17 所 示 的 线性 网 络 ， 设 该 网 络 


的 期 望 输入 /输出 为 ; 
ep 2 0 Cp el 


试 确定 网 络 的 下 列 性 能 指数 隐 数 ; 
8-29 F(x) = (t1 ~ a,(x))? + (t2 - a2(x))? 
输入 线性 神经 元 


CNG \ 


p — y+ 
5 


1 
LS 
a = purelin(wp+b) 
图 8-17 例题 P8.6 的 线性 网 络 


ai 
该 网 络 的 参数 为 w 和 4b， 构成 参数 向 量 


el 


确定 F(x) 的 步骤 如 下 : 首先 确定 性 能 指数 F(x) 为 一 个 二 次 函数 ， 然 后 求 出 其 赫 森 矩阵 
的 特征 值 和 特征 向 量 ， 并 用 它们 描绘 函数 的 轮廓 线 图 。 
先 把 (x) 写 成 参数 向 量 x 的 显 式 形式 : 


F(x) = ef + ej 


其 中 
(e, = ti- (wp, + b)), Cez = t2— (wp, + 6)) 
这 也 可 写成 矩阵 形式 : 
F(x) =ee 
其 中 
] 
e=t-|” |x= -6x 
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现在 性 能 指数 一 数 可 写成 如 下 形式 : 


F(x) = [t - Gx]"[t- Gx] = t't - 2t7’Gx + x’G’Gx 8-30 
与 式 (8.35) 


F(x) = 5 xTAX +d xc 
比较 ， 可 知 这 个 线性 网 络 的 性 能 指数 函数 是 二 次 函数 ， 且 


Cs t't, d =- 2G't, 


A = 2G’G 
该 二 次 函数 的 梯度 由 式 (8.38) 得 给 出 : 


VF(x) = Ax +d = 2G’Gx - 2G’t 
使 梯度 为 零 的 点 即 函 数 的 驻 点 (也 是 函数 轮廓 线 的 中 心 后 ) 


x" =—- A-ld = [G'G] G't 


ee 


a] 
-erehert- [3 A] = [8 
1 2 0.5 
(所 以 网 络 最 优 参 数 是 w =0.167, 6 =0.167.) 


由 式 (8.39) 得 二 次 函数 的 赫 森 矩阵 为 
V? F(x) - A= 2G'G = ie | 


2 4 
为 了 描 出 轮 廊 线 ， 须 先 求 出 赫 森 矩阵 的 特征 值 和 特征 向 量 。 在 这 种 情形 下 有 


A) 


由 于 


WA 


- 1 
所 以 x* BEB. A, FRB ERK TEA, Bre 
廓 线 是 椭圆 ， 其 长 轴 在 第 二 个 特征 向 量 方向 上 。 轮 廓 线 的 中 心 点 在 x” 。 如 图 8-18 所 不 。 


8-31 
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图 8-18 例题 P8.6 的 函数 图 象 
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P8.7 本 例 讨论 一 个 设 有 驻 点 的 二 次 函数 ， 该 函数 为 
F(x) = [1- 1x + bx] | | 
试 描 出 该 函数 的 轮廓 线 图 。 
解 
同 例题 P8 .6 一 样 ， 我 们 需要 先 找 出 赫 森 矩阵 的 特征 值 和 特征 向 量 ， 由 好 数 表达 式 知 其 
th REA | 


V? F(x) = A = f | (8.63) 


其 特征 值 和 特征 向 量 为 


fes o(a [eoe EN 


第 一 个 特征 值 为 零 ， 因 此 在 第 一 个 特征 向 量 方向 上 曲率 为 零 。 第 二 个 特征 值 大 于 零 ， 因 
此 在 第 二 个 特征 向 量 方向 上 的 曲率 为 正 。 如 果 F(x) 没 有 线性 项 ， 则 F(x) 的 图 象 为 如 图 8-10 
所 示 的 一 个 驻 点 止 槽 。 本 例 中 我 们 必须 确定 线性 项 是 否 产 生 沿 止 档 方 启 ( 第 一 个 特征 向 量 的 
方向 ) 的 斜坡 。 
线性 项 为 
Fin(x) = [1 -1]x 
由 式 (8.36) 知 该 项 的 梯度 为 


V Fin (X) = | E | 


这 表明 线性 项 在 这 个 梯度 方向 上 增加 最 快 。 由 于 本 例 中 二 次 项 曲率 为 零 ， 则 整个 孙 数 在 
这 个 方向 上 是 一 个 线性 的 斜坡 。 

所 以 F(x) 在 第 二 个 特征 向 量 方 向 上 的 曲率 大 于 零 ， 而 在 第 一 个 特征 向 量 方 向 上 是 线性 
和 斜坡。 图 8-19 为 该 函数 的 轮廓 线 图 和 3-D 图 。 





图 8-19 ”例题 P8.7 的 下 降 凸 槽 的 函数 


对 于 任意 特征 值 为 零 的 赫 森 矩阵 ， 不 可 能 由 下 式 求 出 二 次 函数 的 驻 点 : 
XX” =- A-id 
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8.5 ”结束 语 


性 能 学 习 是 最 重要 的 神经 网 络 学 习 规 则 之 一 。 通 过 性 能 学 习 ， 网 络 参 数 能 得 到 调 古 从 而 
优化 网 络 性 能 。 本 章 介 绍 了 一 些 研究 性 能 学 习 规 则 必 备 的 工具 。 学 习 本 章 要 求 达 到 : 

(i) 掌握 泰勒 级 数 展开 及 函数 的 近似 表示 方法 ，) 

(ii) RAT eR; 

(iii) 掌握 求 驻 点 的 方法 和 极 小 点 检验 方法 ; 

(iv) Hi RH AAT . 


在 后 面 各 章 会 广泛 地 运用 这 些 概念 ， 包 括 性 能 学 习 ( 第 9 ~ 12 章 ) 和 递归 网 络 (第 17 ~ 18 


章 )。 下 一 章 ， 我 们 将 以 本 章 的 概念 为 基础 设计 优化 性 能 函数 的 算法 。 然 后 在 后 面 的 各 章 中 
将 这 些 算 法 用 于 神经 网 络 的 训练 。 
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习题 


E8.1 4 TIARAA: 


1 
F 一 
(x) 3 3 1 


x -4475 
(i) RFEA «= -0.5 的 二 阶 泰勒 级 数 近似 。 
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(ii) R P(e FER x =1.1 的 二 阶 泰勒 级 数 近 似 。 
(iii) 画 出 F(x ) 和 两 个 近似 并 讨论 它们 的 精确 度 。 
E8.2 考虑 下 列 二 元 姐 数 : 
F(x) = e(271+2%2*+%,75%,+10) 
(i) R F(X EA x=(00]’ 的 二 阶 泰勒 级 数 近似 。 
(ii) 求 该 近似 的 驻 点 。 
(iii) R F(x) WEE A GER F(x) ATR UK ea A ) o 
(iv) 说 明 两 个 驻 点 的 区 别 。( 用 MATLAB 画 出 两 个 函数 图 形 。) 
E8.3 在 点 x=[1 1]7 处 求 下 列 函 数 在 方向 p=[ -1 1]” 上 的 一 阶 和 二 阶 方 同 导数 : 


(i) F(x) = Lat- 6x1 42-23 
(ii) F(x)=5x?-6x;x+5x5+4x]+4x3 
(iii) F(x) =P x} -2aya. +3} 420) - x2 


8-36 (iv) F(x) = -4 (Tad +1201 2-229) 
E8.4 对 函数 
F(x) = stn atal 


(i) REA; 
(ii) 检验 驻 点 是 否 是 极 小 点 和 极 大 点 ; 
(iii) 用 MATLAB 画 出 函数 图 象 ， 验 证 你 的 答案 。 
E8.5 已 知 下列 二 元 函数 ; 
F(x) = (x1 + x2) —- l2xix2 + xi + x241 
(i) 验证 该 函数 有 三 个 驻 所 
“ -| 0. peal? [° 085] 9 = [03655] 
0.6504 0.085 0.5655 


Gi) 检验 以 上 驻 点 ， 找 出 所 有 极 小 点 、 极 大 点 和 鞍点 ; 

(iii) 求 该 函数 在 每 个 驻 点 上 的 二 阶 泰 勒 级 数 近 似 ; 

(iv) 用 MATAB 画 出 函数 及 其 近似 的 图 象 。 
E8.6 对 于 习题 E8.3 KAR: 

(i) 求 出 驻 点 ; 

(ii) 检验 驻 点 ， 找 出 极 小 点 、 极 大 点 和 鞍点 ; 

(iii) 利用 款 森 矩阵 的 特征 值 和 特征 向 量 粗 略 画 出 轮廓 线 图 ; 

(iv) 用 MATLAB 画 出 函数 图 以 验证 你 的 答案 。 
E8.7 例题 P8.7 中 的 函数 没有 驻 点 。 试 仅 改变 向 量 d 以 产生 一 个 驻 点 。 找 出 一 个 新 的 
3-37 | 非 零 向 量 4， 以 产生 一 个 弱 极 小 点 。 


E 
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第 9 章 性 能 优化 


9.1 目的 


从 第 8 章 起 本 书 讨论 了 性 能 优化 问题， 介绍 了 分 析 性 能 曲面 的 一 个 工具 一 一 泰勒 级 数 展 
开 ， 并 运用 这 个 工具 确定 最 优点 必须 满足 的 条 件 。 本 章 将 继续 应 用 泰勒 级 数 展开 寻求 定位 最 
优点 的 算法 。 我 们 将 讨论 三 类 优化 算法 : 最 速 下 降 法 (steepest descent), FUEL RAP 
度 法 (conjugate gradient)。 在 第 10 ~ 12 章 这 些 算法 将 用 于 神经 网 络 的 训练 。 


9.2 理论 和 实例 


前 面 一 章 我 们 开始 了 性 能 曲面 的 研究 。 现 在 我 们 来 寻求 搜索 参数 空间 和 确定 性 能 曲面 最 
优点 的 算法 ( 求 给 定神 经 网 络 的 最 优 权 值 和 偏 置 值 ,) 

有 意思 的 是 本 章 的 多 数 算法 已 经 形成 和 发 展 了 几 百 年 。 优 化 的 基本 原理 早 在 17 世纪 就 
由 开 普 勒 、 费 马 、 牛 顿 和 莱 布 尼 艾 这 些 科学 家 和 数学 家 提出 了 。 目 1950 年 以 来 ， 这 些 原理 
又 被 用 于 高 速 数字 计算 机 。 这 方面 的 成 功 激 起 了 人 们 对 新 的 算法 进行 里 有 成 歼 的 研究 ， 使 得 
优化 理论 领域 成 为 数学 的 一 个 主要 的 分 支 。 现 在 ， 神 经 网 络 的 研究 者 已 进 人 这 一 巨大 的 优化 
理论 宝库 ， 并 试图 将 它 用 于 神经 网 络 的 训练 。 这 方面 的 应 用 刚刚 开始 ， 前 景 光 明 。 

本 章 的 目标 是 构造 优化 性 能 指数 F(x) 的 算法 。 优 化 的 目的 是 求 出 使 F(x) 最 小 化 的 x 的 
值 。 在 这 里 ， 所 有 将 要 讨论 的 算法 都 是 迭代 的 。 首 先 ， 给 定 一 个 初始 猜测 值 mm， 然后 按照 
等 式 

Xi41 = X4 + ck， (9.1) 
或 
Ax, = (Xk41 — X4) = ap, (9.2) 
逐步 修改 我 们 的 猜测 。 这 里 向 量 p 代表 一 个 搜索 方向 ， 一 个 大 于 零 的 纯 量 ww 为 学 习 速 度 ， 
它 确定 了 学 习 步 长 。 

本 章 的 算法 根据 搜索 方向 p, 的 不 同 而 不 同 。 我 们 将 讨论 三 种 不 同 的 可 能 性 。 为 外 还 有 

许多 种 确定 学 习 速 度 的 方法 。 


9.2.1 最 速 下 降 法 


当 用 式 (9.1) 进 行 最 优点 迭代 时 ， 子 数 应 该 在 每 次 迭代 时 都 减 小 ， 即 
F(xer1) < F(X) (9.3) 
如 何 选择 向 量 p ,使 对 于 充分 小 的 学 习 速度 a, 这 个 和 迭代 都 能 快速 收 剑 ? 考虑 式 (8.9) 的 F(x) 
在 X; 的 一 阶 泰勒 级 数 展开 : 
F(xpi1) = F(X, + Ax,) = F(x) + gr AX; (9,4) 


这 里 g ,为 在 旧 猜 测 值 x 的 梯度 : 
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g, = VF(x) , (9.5) 

要 使 F(xi ,1)< F(xi)， 式 (9,4) 右 边 的 第 二 项 必须 为 负 ， 即 
g AX, = argi P: < 0 (9.6) 

我 们 将 选择 较 小 的 正 数 oo MRA 

gi P; < 0 (9.7) 
TEJE ECE PR A—T FIA (descent direction)。 如 果 沿 此 方向 取 
足够 小 的 步 长 ， 力 数 一 定 递 碱 。 这 带 来 了 另 一 个 问题 : 最 速 下 降 的 方向 在 哪里 ? (BEA 

方向 上 了 因数 递减 速度 最 快 ?) 这 种 情况 发 生 于 下 式 为 最 大 的 负数 时 : 
g; P, (9.8) 
CK p, 长 度 不 变 ， 只 改变 方向 。) 这 是 梯度 和 方向 向 基 之 间 的 内 积 。 当 方向 向 量 与 梯度 反 向 时 
该 内 积 为 负 ， 而 绝对 值 最 大 。( 见 8.2.2 节 关 于 方向 导数 的 讨论 。) 所 以 最 速 下 降 方 向 的 向 量 


为 
P: =- B (9.9) 
最 速 下 降 法 ”在 式 (9.1) 的 迭代 中 使 用 此 式 得 最 速 下 降 的 方法 : 
Xi+l = X, — Akg; (9.10) 


学 习 速 度 ”对 最 速 下 降 法 ， 有 两 个 用 来 确定 学 习 速 度 a 的 常见 方法 。 第 一 个 方法 是 使 
基于 aj 的 性 能 指数 R(x) 每 次 迭代 最 小 化 ， 即 沿 下 列 方向 实现 最 小 化 : 
X; 一 Akg; (9.11) 
男 一 个 方法 是 选择 固定 的 ai 值 (例如 取 a, =0.02)， 或 使 用 预先 确定 的 变量 值 (例如 a, = 
1/k)。 在 下 面 例子 中 我 们 将 详细 讨论 a 的 取 值 问题 。 


试 给 出 下 列 落 数 的 最 速 下 降 算 法 : 
F(x) = x? + 25x3 (9.12) 
HEERDEN 
0.5 
Xo -| | (9.13) 
第 一 步 先 求 梯度 . / 
a 
V F(x) Ia p | (9.14) 
xX = = . 
-2 F(x) 50x, 
XI 
EE NES A Be BE 
] 
Zo = VFO | oy = | (9.15) 


假定 采用 固定 的 学 习 速 度 =0.01。 最 速 下 降 算 法 的 第 一 次 迭代 为 


| 1 | kod 
SEEP _ 0.01 - 9.16 
“1 = X -= ago He 25 0.25 A] 
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第 二 次 选 代 为 


0.49 0.98 0.4802 
X% = Xi =— ag, = —~ 0.01 195 = 0.195 (9.17) 


继续 迭代 下 去 可 得 图 9-1 所 示 的 迭代 轨迹 。 

注意 到 对 于 较 小 的 学 习 速 度 最 速 下 降 轨 迹 的 路 径 总 是 与 轮廓 线 正 交 ， 这 是 因为 樟 度 与 毗 
廓 线 总 是 正 交 的 。( 见 前 面 8.2.2 PH.) 

如 果 改 变 学 习 速 度 ， 该 算法 的 性 能 会 如 何 变化 ?如果 学 习 速 度 增加 到 a。=0.035， 可 得 
图 9-2 所 示 的 轨迹 。 注 意 这 时 的 轨迹 是 一 条 振荡 线 。 可 见 如 果 学 习 速 度 太 大 ， 算 法 会 变 得 不 
BE, KARAM, RMX. 


1 1 





| 1 CC ~" 
K 43 0 0.5 1 1 0.8 0 05 1 
9-1 a=0.01 时 的 最 速 下 降 轨 迹 图 9-2 a=0.035 时 的 最 速 下 降 轨 迹 


我 们 总 是 希望 学 习 速 度 更 快 ， 所 以 增 大 步 长 以 期 快速 收敛 。 但 是 ， 从 本 例 中 可 以 看 出 ， 
如 果 学 习 速 度 太 快 ， 算 法 将 变 得 不 稳定 。 如 何 确定 最 大 可 行 的 学 习 速 度 ? 对 于 任意 函数 ， 这 
是 不 可 能 的 ， 但 对 于 二 次 函数 ， 我们 可 以 确定 一 个 上 鹤 。 


1. 稳定 的 学 习 束 度 
假定 性 能 指数 是 一 个 二 次 蚌 数 : 
F(x) = 5x" Ax +d’x+c (9.18) 
由 式 (8.38) 知 二 次 函数 的 梯度 为 
VF(x) = Ax+d (9.19) 
将 这 个 表达 式 代 人 最 速 下 降 算法 的 表达 式 ( 假 定 学 习 速 度 为 常数 )， 得 
X+} = X; — OZ, = X — al Ax, + d) (9.20) 
或 
il1 = [I oA |X; — ad (9.21) 


这 是 一 个 线性 动态 系统 ， 如 果 和 矩阵 [I - aA] 的 特征 值 小 于 1， 该 系统 就 是 稳定 的 ( 见 
[Brog91] ) 。 可 用 幸 森 矩阵 A 的 特征 值 来 表示 该 矩阵 的 特征 值 。 设 替 森 抢 阵 的 特征 值 和 特征 
a] ESP BUA AL, Ags ots Ant AZ, Ms o> Z,{o BRA 

[T-aA]z = Z; - «AZ; = ZŁ; - oNiZi = (1 - ad;)z; (9.22) 

所 以 [I- aA] 的 特征 向 量 与 A 的 特征 向 量 相同 ， 特 征 值 为 (1 - ai)。 于 是 最 速 下 降 算法 
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的 稳定 条 件 为 
(1-oX\,)| < 1 (9.23) 
WR RRA RRR, MRR AER, A(9.23) TEA 
Q < S (9.24) 
h FAAN BRS EY PA PEE eB ae, ALR 
2 
a < (9.25) 


A max 


最 大 的 稳定 学 习 速 度 与 二 次 函数 的 最 大 的 曲率 成 反比 。 曲 率 说 明 梯 度 变化 的 快慢 。 如 果 
梯度 变化 太 快 ， 可 能 会 导致 跳 过 极 小 点 ， 进 而 使 新 的 迭代 点 的 梯度 的 值 大 于 原 迭 代 点 的 梯度 
的 值 (但 方向 相反 )。 这 会 导致 每 次 欠 代 的 步 长 增 大 。 

RTE FAX TSC OT AT EAS. ABTS UK PRR ah BRAS A 


A = 2 7 (9.26) 
A 的 特征 值 和 特征 向 量 为 
ee ea 
所 以 允许 最 大 的 学 习 速 度 为 
2 pi = Ž = 0.04 (9.28) 





图 9-3 所 示 为 这 个 结果 的 实验 ， 它 表示 学 习 速 度 略 小 于 0.04(a= 0.039) MEEK F 0.04 
(a= 0.041) 的 最 速 下 降 轨 迹 。 





图 9-3 au=0.039( 左 ) 和 a=0.041( 右 ) 的 最 速 下 降 轨 迹 


这 个 例子 说 明 许 多 问题 。 学 习 速 度 受 限 于 替 森 和 矩阵 的 最 大 特征 值 。 在 最 大 特征 值 的 特征 
向 量 方向 上 算法 收 和 伍 最 快 ， 且 这 个 方向 上 不 能 越过 极 小 点 太 远 。( 本 例 中 的 初始 选 代 方 同 几 
乎 与 x, 轴 即 z 平行 。) 然 而 ， 在 最 小 特征 值 的 特征 向 基 ( 本 例 中 的 五 ) 方 癌 上 算法 将 收敛 最 
慢 。 最 后 ， 最 小 特征 值 与 学 习 速 度 共同 决定 算法 收敛 的 快慢 。 特 征 值 的 大 小 相差 越 大 ， 最 速 
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下 降 算 法 收敛 越 慢 。 


试验 二 次 函数 的 最 速 下 降 法 请 用 Neural Network Design Demonstration Steepest 
Descent for a Quadratic( nnd9sdq) ) 。 


2. 沿 直 线 最 小 化 
选择 学 习 速 度 的 另 一 种 方法 是 用 a 使 每 次 迭代 的 性 能 指数 最 小 化 。 即 选择 a, 使 下 式 最 
小 化 : 





F(X; 十 a:p) (9.29) 


对 任意 函数 的 这 种 最 小 化 需要 线性 搜索 (将 在 第 12 章 讨论 )。 对 二 次 函数 解析 线性 最 小 
化 是 可 能 的 。 式 (9.29) 对 ai FR F(x) WK BB) A 


d | 
Jaf (xt + uP) = VRC") x P + apiy F(x) xex P (9.30) 


设 该 导数 为 零 并 求 出 a, 为 


y F(x)" 
x=x g; Pi 








Qk PEVE p = 一 TA (9.31) 
Pk X x= xP Pr PE 
这 里 A, 为 在 Xi EA) to BRE 
a V2F (x), (9.32) 
| X= X, 
(UK BRA A REE ANE k 的 函数 。) 
现在 用 沿 直 线 最 小 化 来 实现 下 列 二 次 函数 的 最 速 下 人 降 : 
Pga Larl? : X (9.33) 
迭代 初 值 点 为 
0.8 
“= Loos | orn 
该 函数 的 梯度 为 
VF(x) = ja j i (9.35) 
Xy + 2x7 
最 速 下 降 法 的 搜索 方向 是 梯度 的 反 向 。 对 第 一 次 迭代 ， 有 
| = 1.35 
po =~ Bo --VFG)|, -| _ 0.3 | (9.36) 
由 式 (9.31)， 第 一 次 迭代 的 学 习 速 度 为 
[1.35 0 3 
-0.3 - 0.413 (9.37) 


和 aie -0.3]| ， oa] 
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第 一 次 选 代 为 


| 0.8 | n 413| | | 0.24 | i 
Xi = 一 = 一 - = $ 
ı = Xo — %B0 = | _ 0.25 0.3 -0.37 


图 9-4 显示 该 算法 的 前 5 次 迭代 。 

EB: 算法 的 逐次 迭代 都 是 正 交 的 。 为 什么 如 此 ?首先 ， 沿 直线 的 最 小 化 总 会 在 轮廓 线 
的 切线 上 一 点 停止 。 其 次 ， 由 于 梯度 正 交 于 轮廓 线 ， 沿 梯度 相反 方向 的 下 一 步 就 与 前 一 步 正 
Eo 

用 式 (9.30) 的 链 规则 (chain rule) 来 分 析 ， 


d o d _ T d 
(9.39) 


= VF(x)! ~ px = 8 iriPs 


= k+l 
所 以 在 极 小 点 ， 该 导数 为 零 ， 梯 度 与 前 一 步 搜索 方向 正 交 。 由 于 下 一 次 搜索 方 癌 与 梯 上 度 
方向 相反 ， 后 面 依次 进行 的 搜索 方向 都 是 正 交 的 。( 这 个 结果 说 明 在 任何 方向 上 的 最 小 化 ， 
哪怕 未 用 最 速 下 降 法 ， 极 小 点 的 梯度 都 与 搜索 方向 正 交 。 在 后 面 关 于 共 辊 方向 的 讨论 中 还 要 


用 到 这 个 结果 。) 


hy 


图 9-4 沿 直线 最 小 化 的 最 速 下 降 法 


1 


试验 沿 直 线 最 小 化 的 了 最速 下 降 法 请 用 Neural Network Design Demonstration 
Method Comparison (nnd9mc) 。 


REG HRAVGR RISA (ARMREST URE. SRE RRIA i, 
函数 最 多 能 在 n 步 的 迭代 中 被 最 小 化 (n 为 X 的 维 数 )。( 实 际 上 存在 某 些 类 型 的 二 次 函数 ， 用 
最 速 下 降 算法 一 步 就 能 最 小 化 。 你 能 否 想像 出 这 样 一 个 函数 ? 其 赫 和 森 矩 阵 的 特性 是 什么 ?) 
9.2.2 牛顿 法 


最 速 下 降 算法 的 导数 是 以 一 阶 泰勒 级 数 展开 为 基础 的 ( 式 (9.4))。 和 牛顿 法 则 基于 二 阶 素 
勒 级 数 : 





F(x.,1) = F(x, + Ax; ) n F(x,) 十 g; AX; 十 5 Axi ALA (9.40) 
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牛顿 法 ”牛顿 法 的 原理 是 求 F(x) 的 二 次 近似 的 驻 点 。 用 式 (8.38) 求 这 个 二 次 也 数 对 


Ax, 的 梯度 并 设 它 为 零 ， 则 有 
g, + A, Ax, = 0 
求解 Ax, 得 
Ax, = — Aj'g, 
于 是 可 将 牛顿 法 定义 为 
Xi+1 = X; ~ ÅJ g, 
为 了 说 明 牛 顿 法 的 步骤 ， 将 它 用 于 前 面 式 (9.12) 的 例子 : 
F(x) = x} + 25x 


HA FE A aR RFE A 
3 
Th : 
VF(x) = $ |: va- ° | 
= F(x) 50x, 0 50 
X%2 
如 果 从 同一 个 初始 点 
A hed 
© = 10.5 


开始 ， 牛 顿 法 的 第 一 步 为 


«losl -l sol Le} = [os] -[os] = [0] 
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(9.41) 


(9.42) 


(9.43) 


(9.44) 


(9.45) 


(9.46) 


(9.47) 


这 个 方法 总 能 一 步 找到 二 次 函数 的 极 小 点 。 因 为 牛顿 法 总 是 用 一 个 二 次 函数 逼近 严 (x )， 
然后 求 其 驻 点 。 如 果 原 函数 为 二 次 函数 (有 强 极 小 点 )， 它 就 能 够 实现 一 步 极 小 化 。 图 9-5 所 


示 为 这 个 问题 的 牛顿 法 的 迭代 轨迹。 


图 9-5 牛顿 法 的 轨迹 


如 果 函 数 F(x) 不 是 二 次 函数 ， 则 牛顿 法 一 般 不 能 在 一 步 内 收 鳃 。 实 际 上 根本 无 法 确定 


它 是 否 收敛 ， 因 为 这 取决 于 具体 的 函数 和 初始 点 。 
回忆 式 (8.8) 的 函数 ; 
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F(x) = (x 一 x1)4 + SX1X? 一 Xi + Xo 十 3 (9.48) 
由 第 8 章 知 ( 见 例题 P8.5) AAKA 3 SEER: 
1 | oni s] 0.55 | 
J | 0.42 ale 0.13 J” Ea -0.55 iiit 


第 一 点 是 一 个 强 局 部 极 小 点 ， 第 二 点 是 一 个 鞍点 ， 第 三 点 是 一 个 强 全 局 极 小 点 。 
将 牛顿 法 用 于 这 个 问题 ， 初 始点 为 尺 =[1.5 0]7， 第 一 次 迭代 如 图 9-6 所 示 。 左 边 的 
图 是 原 函 数 的 轮廓 线 图 ， 右 边 的 图 是 该 孙 数 在 初始 点 的 二 次 近似 。 





图 9-6 FORM xy =[-1.5 0] 的 一 次 迭代 


该 函数 不 能 实现 一 步 最 小 化 ， 因 为 这 不 是 二 次 函数 。 然 而 ， 挝 代 是 朝 全 局 极 小 方向 进行 
的 ， 如 果 再 迭代 两 次 ， 算 法 就 能 收 全 到 全 局 极 小 点 的 0.01 的 范围 之 内 。 牛 顿 法 在 许多 应 用 
中 都 能 快速 收 鳃 。 这 是 因为 在 一 个 强 极 小 点 的 较 小 的 邻 域内 ， 解 析 取 数 能 够 被 二 次 函数 精确 
近似 。 离 极 小 点 越 近 ， 和 牛顿 法 越 能 精确 标识 该 极 小 点 。 从 本 例 中 可 以 发 现在 初始 点 附近 ， 二 

9-12] 次 近似 的 轮廓 线 图 同 原 函 数 轮 廊 线 图 很 相似 。 

图 9-7 所 示 为 以 =[-1.5 0】 为 初始 点 的 牛顿 一 次 选 代 。 本 例 中 收敛 到 局 部 极 小 
上 点。 显然， 牛顿 法 不 能 区 别 局 部 极 小 和 全 局 极 小 ， 因 为 它 将 函数 近似 为 二 次 天 数 ， 而 二 次 苯 
数 只 有 一 个 极 小 点 。 同 最 速 下 降 法 一 样 ， 牛 顿 法 也 依赖 于 曲面 的 特征 (一 阶 和 二 阶 导数 )。 它 


FEF BAN SEE 





图 97 从 加 =[-1.5 0j 的 牛顿 法 的 一 次 选 代 
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图 9-8 所 示 为 以 = [0.75 0.75]? 为 初始 点 的 牛顿 法 的 一 次 迭代 。 这 次 收敛 到 了 函数 
的 鞍点 。 注 意 牛 顿 法 是 在 当前 初始 点 确定 随 数 的 二 次 近似 的 驻 点 ， 它 并 不 区 别 极 小 点 、 极 大 
点 和 鞍点 。 本 例 中 的 二 次 近似 有 一 个 鞍点 (不 定型 赫 森 矩阵 )， 在 原 函 数 鞍点 附近 。 如 果 继 续 


迭代 ， 算 法 就 会 收敛 到 F(x) NRA 





图 9-8 以 为 =[0.75 0.75]? 为 初始 点 的 牛顿 法 一 次 和 迭代 


以 上 各 例 中 二 次 近似 的 驻 点 总 在 FOE TIE 实际 情况 并 不 总 是 这 样 。 实 际 


， 牛 顿 法 可 以 产生 难以 预料 的 结果 。 

图 9-9 所 示 为 =[1.15 0.75] “为 初始 点 的 牛顿 法 一 次 迭代 。 这 里 ， 二 次 近似 预期 会 
有 一 个 鞍点 ， 但 是 鞍点 离 F(x) 的 局 部 极 小 点 很 近 。 如 果 连 续 兴 代 下 去 ,算法 将 收敛 到 局 部 
极 小 点 。 注 意 这 里 初始 点 离 该 局 部 极 小 点 比 上 俩 中 更 远 ， 而 上 例 中 却 收 敛 到 鞍点 。 


IQ 


Ni 


图 99 以 加 =[1.15 0.75]7 AeA AEA 





试验 该 函数 的 牛顿 法 和 最 速 下 降 法 请 用 Neural Network Design Demonstration 
Newton’s Method (nnd9nm) 和 Steepest Descent (nnd9sd). 





Ae A BY Ep a F : 
FRE AE I: AU OR Ei SR PAR, (ARORA, RT BR IA 
题 ( 同 最 速 下 降 法 不 同 ) 外 ， 算 法 还 可 能 振荡 和 发 散 。 如 果 学 习 速度 不 太 快 或 每 步 都 实现 线性 


极 小 化 ， 最 速 下 降 法 能 够 确保 收 伍 。 
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第 12 章 将 讨论 适合 网 络 训练 的 牛顿 法 的 一 种 变型 ， 它 能 够 解决 当 发 散 开 始 出 现时 最 速 
下 降 法 的 发 散 问 题 。 

牛顿 法 的 另 一 个 问题 是 需要 对 替 林 矩阵 及 其 逆 阵 的 计算 和 和 存储。 将 最 速 下 降 法 的 式 
(9.10) 与 牛顿 法 的 式 (9.43) 相 比 ， 可 以 发 现 当 下 式 成 立时 ， 它 们 的 搜索 方向 将 相同 ， 

A, = A; =I (9.50) 

由 此 可 以 导出 称 之 为 类 牛顿 法 或 单 步 正 割 法 的 一 类 优化 算法 。 这 类 方法 用 一 个 正定 矩阵 
Hi 代替 A;， 该 矩阵 不 需 转 置 ， 每 次 迭代 都 刷新 。 这 类 算法 通常 能 使 二 次 函数 Hi 收敛 于 
A 。( 二 次 函数 的 赫 森 矩阵 为 一 常数 矩阵 。) 有 关 这 类 方法 的 讨论 见 .Gill81]、[Scal85 ] 或 
| Batl92 |. 


9.2.3 FYB 


二 次 终结 法 ”牛顿 法 有 一 个 性 质 称 为 二 次 终结 法 (quadratic termination), RUE RETEA RR 
的 选 代 次 数 内 使 二 次 函数 极 小 化 。 但 这 和 需要 计算 和 存储 二 阶 导 数 。 当 参数 个 数 n 很 大 时 ， 
计算 所 有 二 阶 导 数 是 很 困难 的 。( 若 梯度 有 nn 个 元 素 ， 则 款 森 矩阵 有 n 个 元 素 )。 在 神经 网 
络 中 这 个 问题 尤其 严重 ， 因 为 这 里 的 实际 应 用 往往 和 需要 几 百 个 芮 至 上 千 个 权 值 。 所 以 我 们 希 
望 找 到 只 需要 一 阶 导数 但 是 仍 具 有 二 次 终结 性 质 的 方法 。 

回忆 最 速 下 降 法 在 每 次 迭代 用 线性 搜索 时 的 性 能 。 相 继 和 迭代 的 搜索 方向 相互 正 交 ( 见 图 
9-4) 。 对 于 轮廓 线 为 椭圆 的 二 次 函数 ， 这 将 产生 短 步 长 的 锯齿 形 轨 迹 。 也 许 二 次 搜索 方 同 并 
非 最 好 的 选择 。 那 么 存在 一 个 确保 二 次 终结 法 的 搜索 方向 的 集合 吗 ? 一 个 可 能 便 是 共 斩 方 向 。 

假定 对 下 述 二 次 函数 确定 极 小 卜 : 


F(x) = xTAX + ile ax (9.51) 


Ke MANS 
p,Ap, = 0,k # j (9,52) 
时 ， 称 向 量 集 合 {p, | WF—-TECMRAE ARH. MFM, FER TREK 
成 一 个 n 维 空间 的 两 两 共 f 向 量 集 。 由 A 的 特征 向 量 组 成 的 共 轿 问 量 集 也 是 其 中 之 一 。 设 
Ars Ags tts Aa MiZ g, oc, Za) 分 别 为 赫 森 矩阵 的 特征 值 和 特征 同 量 。 为 了 验证 特征 
EEH, H z 代替 式 (9.52) 的 p,， 有 
WAL, = Nm 7 =0, ke j (9.53) 
后 一 等 式 成 立 是 因为 对 称 矩 阵 的 特征 向 量 两 两 正 交 。 所 以 特征 问 量 既是 共 绒 的 也 是 正 交 的 。 
(你 能 否 找 出 所 有 的 正 交 向 量 都 苍 的 二 次 函数 ?) 
沿 赫 森 矩阵 的 特征 向 量 搜索 就 能 准确 地 使 二 次 函数 极 小 化 。 这 点 并 不 奇怪 ， 因 为 特征 向 
量 构成 函数 轮廓 线 的 主轴 。( 参 见 8.2.5 节 “ 替 森 的 特征 系统 "中 的 讨论 。) 然 而 这 对 于 实际 运 
用 没有 多 少 帮助 ， 因 为 要 知道 特征 向 量 必须 先 求 出 赫 森 和 矩阵。 我 们 希望 找到 一 种 不 需要 计算 
二 阶 导数 的 算法 。 
已 经 证 明 ( 见 LScal85] 或 [Ginl8l]) ， 如 果 存 在 沿 一 个 共 斩 方向 集 {p| ，p,，…，p, | 的 准确 
线性 搜索 序列 ， 就 能 在 最 多 n 次 搜索 内 实现 具有 n 个 参数 的 二 次 函数 的 准确 极 小 化 。 问 题 
在 于 如 何 构造 这 些 共 罗 搜 索 方 向 。 首 先 来 看 式 (9.52) 中 不 用 赫 森 矩阵 的 共 柜 条 件 。 注 意 到 对 
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于 二 次 函数 ， 有 
VF(x) = Ax+d (9,54) 
V?F(x) = A (9.55) 
将 这 些 等 式 组 合 起 来 ， 能 发 现在 大 + 1 次 迭代 时 梯度 的 变化 : 
Ag, =2,.,-2. = (AXx;,1 + d) - (Ax, + d) = AAx, (9.56) 
又 由 式 (9.2) 有 
Ax, = (X41 - Xi) = akp， (9.57) 


选择 a, EPR FOE p, DEERE. 

PRLASR (9.52) HSER ARABS R 

ap, Ap, = Ax Ap, = dg, p; = 0,k = j (9.58) 

FERRETA RGR. RNCGAPHKMAERA MRE HAAR Ee 
CX. MRBRARDSRESHAMEA, WENA. 

注意 第 一 次 搜索 方向 p 是 任意 的 ， 而 p 可 以 是 与 4g, 垂直 的 任意 向 量 。 所 以 共 轿 疝 量 
集 的 数量 是 无 限 的 。 通 常 从 最 速 下 降 法 的 方向 开始 搜索 ; 

Po =- Bo 

每 次 和 迭代 都 要 构 选 一 个 与 1Ag,，Ag ;，…，Ag，) 上 正 交 的 向 量 p,。 这 与 第 5 章 讨 论 的 

Gram-Schmidt 正 交 化 过 程 类 似 。 可 将 迭代 形式 简化 为 ( 见 [ Scal85 |] ): 


(9.59) 








Pp, =- & + ErP (9.60) 
确定 系数 B, 的 方法 有 许多 种 ， 对 二 次 函数 产生 的 结果 相同 。 通 常 选 择 ( 见 .Scal85]): 
7 
A, = aoe (9.61) 
Ag ;-1P}-1 
(由 Hestenes 和 Steifel HAZ ) 9-17 
gi B 
B, = T (9.62) 
8 184-1 
(由 Fletcher 和 Reeves 确定 ) 
T 
B, = ei (9.63) 
B8 人 -18 -1 


(由 Polak 和 Ribiére 确定 ) 
HEEE 上述 关于 共 斩 梯度 的 讨论 可 归纳 如 下 : 
1) 选择 如 式 (9.59) 所 示 的 与 梯度 相反 的 方向 作为 第 一 次 搜索 方向 。 
2) 根据 式 (9.57) 进 行 下 一 步 搜索 ， 确 定 ax 以 使 函数 沿 搜索 方向 极 小 化 。 
第 12 章 将 讨论 通用 的 线性 极 小 化 技术 。 对 于 二 次 函数 ， 可 使 用 式 (9.31)。 
3) 根据 式 (9.60) 确 定 下 一 个 搜索 方向 ， 用 式 (9.61)，(9.62) 或 (9.63) 式 计算 Bi。 


4) 如 果 算 法 不 收敛 ， 回 到 第 2 步 。 
为 了 说 明 这 个 算法 的 性 能 ， 再 使 用 前 面 用 于 说 明 线性 极 小 化 的 最 速 下 降 法 的 例子 : 
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2 |] 
F(x) = $x rl” NE (9,64) 
RAN 


[o] 
© = | 0.25 
该 函数 的 梯度 为 


(9.65) 
risa [2% n “a 
[9-18 对 于 最 速 下 降 法 


(9.66) 
Xi + 2x» 


- 1.35 
P =-go=-YFGO7| - | | (9.67) 
FAA (9.31), SRI dE 


[1.35 0.3]| 1) 
on 


= ~ 0.413 (9.68) 
2 1){-1.35 
aie - 0.3] | ,| | 
所 以 共 斩 梯 度 法 的 第 一 步 为 
ors | 0.8 


_ 1.35 0.24 
-0.25 +0.413| -0.3 | - p a 
这 个 结果 与 沿 直 线 的 最 速 下 降 极 小 化 的 结果 相同 。 
现在 用 式 (9.60) 找 第 二 次 搜索 方向 。 先 求 出 在 x, 的 梯度 





(9.69) 


0.24 0.11 
TEAC x -| vl. oe) -| in 
现在 求 Bi : 

T [0.11 o.s] | 
gig -0.5 
Bi = 一 一 AR = 007s = 0.137 (9.71) 
Bo [1.35 0.3]| : | 
0.3 
这 是 式 (9.62) 的 Fletcher 和 Reeves 的 方法 。 于 是 由 式 (9.60) 得 第 二 次 搜索 方 问 
-0.11 ~ 1.35 ~ 0.295 
p = -81 +p =| 0. | roas 6 | | 0.459 | bl 
[919] 由 式 (9.31) ， 第 二 次 迭代 的 学 习 速 度 为 
[0.11 0. 5]| w | 
0.459 — 0.262 
al = E Jj- 下 25] ` = 9-395 = 0-807 (9.73) 
[- 0.295 0.459] ‘ane 
PR HSE a BA EE A HE 


0.24 - 0.295 0 
= tap = | 0 | + 0.807 | -| | 


9.74 
0.459 0 ( 
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该 算法 和 预期 的 一 样 ， 两 次 迭代 就 精确 收敛 到 极 小 点 (因为 这 是 一 个 二 维 的 二 次 函数 )， 
如 图 9-10 所 示 。 把 这 个 结果 与 图 9-4 的 最 速 下 降 算 法 的 结果 相 比 较 可 知 ， 辣 最 速 下 降 法 使 
用 正 交 的 搜索 方向 的 方法 不 同 ， 共 斩 梯 度 算法 调节 第 二 次 搜索 方向 以 使 它 通过 函数 极 小 点 
(函数 轮廓 线 的 中 心 )。 





图 9-10 ” 共 恩 梯度 算法 
第 12 章 还 会 讨论 共 轿 梯度 算法 用 于 非 二 次 也 数 的 情况 。 


UG KH HS Rik TBE ERA Neural Network Design Demonstra- 





tion Method Comparison (nnd9mc) 。 
9.3 小 结 
通用 最 小 化 算法 
Xk+1 = X; + Op, 
或 
AX, = (Xi41 — X4) = akp; 
最 速 下 降 算法 


Xk+1 = X; 一 CE 区 
X= xX 


稳定 学 习 速度 (ak = a， 常 数 ) 
hoe 


{A1， Ad; my A, | Aime A 的 特征 值 
沿 直 线 x; ,| = Xi + aup, 的 最 小 化 的 学 习 速 度 
T 
n = = 一 一 (用 于 二 次 函数 ) 


p r Ap, 
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沿 直线 x ,1 =x, + ap, 的 最 小 化 之 后 








gi,iP: = 0 
牛顿 法 
Xk+l = X; 一 Ai g, 
其 中 
A, = V °F (x) 
X=X, 
H A BE WIE 
AX; = 2k p, 
fa BR Xk +1 =X, + akp, 的 最 小 化 确定 学 习 速 度 Ok 
Po =- Bo 
P; =- B, t BIP] 
Ag 1 和 ZiB AB -1 
Bk = BB, = 一 KB, = T 
Ag ;-1P}-1] &z-1P}-1 6 i-1Px-1 
其 中 g, =V F(x) = Avg, = 8.4178: 
a’ 
9.4 例题 


P9.1 KR RA RAAB: 
F(x) = 5x? —-6xi x3 + 5%% + 4x] + 4x2 

(i) 画 出 该 函数 的 轮廓 线 图 。 

(ii) 设 学 习 速 度 很 小 ,起 始点 为 = -1 -2.5]'， 画 出 (i) 中 轮廓 线 的 最 速 下 降 算 
法 的 轨迹 。 

(iii) 最 大 的 稳定 学 习 速 度 是 多 少 ? 

解 

(i) 要 画 出 轮廓 线 图 必须 先 求 出 赫 森 矩阵。 对 于 二 次 函数 ， 只 要 将 葡 数 化 成 标准 形式 
( 见 (8.35)) 就 能 得 到 赫 森 和 矩阵: 





F(x) = PXTAX+ d?x + c= =i Olas [4 4]x 
由 式 (8.39) 赫 森 矩 阵 为 
[1 -5] 
v(x) =A=| 1) 10 


FEE aS RPE (A PA fe Bt 
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由 第 8 章 ( 见 8.2.5 节 “ 赫 森 的 特征 系统 ”) 关 于 二 次 函数 的 讨论 知 该 函数 轮廓 线 是 椭圆 。 
由 于 和 大 于 入 ， 所 以 F(x) 的 最 大 曲率 在 2, 方向 上 。 其 最 小 曲率 在 z 方向 上 (椭圆 的 长 轴 )。 
下 面 求 轮廓 线 的 中 心 ( 驻 点 )， 即 使 梯度 为 零 的 点 。 由 式 (8.38) 有 


10 -6 H 四 
X + = 
-6 10 4 0 


HA o 


S | KLE 
X = 一 = 
-6 10 4 =i 
轮 廊 线 是 椭圆 ， 中 心 点 为 x* ， 长 轴 在 z FA. ARR “ 2 
图 如 图 9-11 所 示 。 

(ii) 梯度 总 是 与 轮廓 线 相 垂 直 ， 如 果 步 长 足够 
小 ， 最 速 下 降 轨 迹 将 与 每 条 相交 的 轮廓 线 垂 直 。 所 以 
不 需 任何 计算 就 可 画 出 这 一 轨迹 ， 如 图 9-11 Bra. 


(iii) 由 式 (9.25) 知 赫 森 和 矩 阵 的 最 大 特征 值 决定 了 





V F(x) = Ax+d = | 


9-23 





二 次 函数 的 最 大 的 稳定 学 习 速 度 : À ° " l 

m 2 图 9-11 例题 9.1 的 轮廓 线 图 

Amaz 及 最 速 下 降 轨 迹 
本 例 的 最 大 特征 值 为 xx = 16， 所 以 
a< T = 0.125 
图 9-12 所 示 验 证 了 这 一 结果 ， 图 中 分 别 画 出 了 学 习 速 度 略 低 于 (a =0.12) 和 上 略 大 于 (a 
= 0.13) 最 大 稳定 学 习 速 度 时 的 最 速 下 降 轨 迹 。 
7 





3 it “f 0 


Æ 9-12 a=0.12( 左 ) 和 a=0.13( 右 ) 的 轨迹 
P9.2 采用 沿 直线 最 小 化 的 两 步 最 速 下 降 算 法 处 理 例题 P9.1 中 的 二 次 函数 。 起 始 条 件 为 : 
x=[0 -2 
解 | 
由 例题 PO. 1 知 函 数 的 梯度 为 


10 -6 
VF(x) = Ax+d=| |x 


i 
-6 10 4 
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在 x 点 计算 函数 的 梯度 ， 有 
go = VF(X) -Aw+da=| oll 7H -| | 


所 以 第 一 次 搜索 方向 是 


二 次 函数 沿 直 线 的 最 小 化 可 用 式 (9.31): 


-|-16 
16 i611] 


7 
& o Po 16 — 512 0.0625 
Ga m O R A a a a a —— a aA i 
T 10 -6][- 16 8192 
Po Ap, [ ~ 16 16]| | | 
-6 10 16 


(9-25; 所 以 最 速 下 降 法 的 第 一 次 迭代 为 


| 9-20 | 


0 16 - 1 
Al = Xo ~ Po = _ ~- 0.0625 _ 16 = _ 1 


P KERER x 点 的 梯度 : 
4 0 
s1 = Lèl 


10 -6][-1 
了 p 10 lo 
所 以 已 到 达 一 个 驻 点 ; 算法 也 已 经 收 伍 。 由 例题 P9.1 ABER RX TAIRA) 
点 。 图 9-13 所 示 为 下 降 轨 迹 。 


十 











图 9-13 例题 P9.2 采用 线性 极 小 化 的 最 速 下 降 法 


这 是 一 个 最 速 下 降 算法 一 次 迭代 到 极 小 点 的 特例 。 注 意 这 里 的 初始 点 位 于 赫 森 矩阵 指 问 极 
小 点 的 特征 向 量 的 方向 上 。 只 要 搜索 方向 在 特征 向 量 方向 上 ， 最 速 下 降 法 就 能 一 次 迭代 到 极 
小 点 。 这 对 协 森 矩阵 的 特征 值 意味 着 什么 呢 ? 
P9.3 我 们 在 例题 P8.6 推出 了 一 个 线性 神经 网 络 的 性 能 指数 。 图 9-14 BKM 
构图 ， 网 络 用 下 述 输 入 /输出 对 进行 训练 : 
| 


网 络 性 能 指数 定义 为 
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F(x) = (ty = a, (x) )? + (t2 - a(x) )? 
如 图 8-18 所 示 。 


(i) 设 初始 点 为 w=[1 1)’ 
(x=[w 5]"), 
(ii) 最 大 的 稳定 学 习 速 度 是 多 少 ? 
输入 线性 神经 元 
IAA 


p eo—— YY 
b 


Oy L 


a = purelin (wp +b) 


， 学 习 速 度 a。=0.05。 用 最 速 下 降 法 求 该 网 络 的 最 优 参 数 


图 9-14 ”例题 P9.3 和 P8.6 的 线性 网 络 
解 
(i) 由 例题 P8.6 知 该 性 能 指数 可 以 写成 二 次 形式 : 


F(x) = x7Ax +dix+c 


这 里 
c=t't = [0.5 01| °° | = 0.25 
| 
A-2crG = | ° a 
xo 点 的 梯度 为 


gy = YF(X0) = AX +d = nln a j 由 
最 速 下 降 法 的 第 一 次 迭代 为 


四 0.05] 1 ae 
m= %80 5/1] lls) = 10.75 


kpd 0.05 5] | 
075 La dL 0.6 


后 面 的 汉代 见 图 9-15。 算 法 收敛 于 极 小 点 x* = [0.167 0.167]j7。 所 以 该 网 络 的 权 值 和 
偏 置 值 的 最 优 值 都 是 0.167。 


要 训练 该 网 络 必须 知道 所 有 的 输入 /输出 对 ， 然 后 进行 最 速 下 降 算 法 的 迭代 直到 达到 收 


第 二 次 和 迭代 为 
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t 5 0 1 


图 9-15 例题 P9.3 中 a =0.05 的 最 速 下 降 法 轨迹 


A. B 10 革 我 们 将 介绍 一 个 用 于 训练 线性 网 络 的 目 适 应 最 速 下 降 算 法 。 在 这 种 目 适 应 算法 
中 ， 每 次 输入 /输出 对 都 使 网 络 参数 被 更 新 。 这 样 ， 网 络 能 够 适应 环境 的 变化 。 
(ii) 本 例题 中 幸 森 矩阵 的 最 大 特征 值 为 Xi = 10.6( 见 P8.6) ， 故 最 大 的 稳定 学 习 速 度 为 


9-28 _ 2 - 
< 10.6 = 0.1887 


P9.4 求 下列 函 数 的 以 内 =[1 -2] 为 初始 点 的 牛顿 法 一 次 迭代 。 本 题 结果 离 R(x) 极 
小 点 有 多 近 ? 试 予以 说 明 。 
F(x) = e617 %1429+4) 
解 
首先 求 梯度 和 蔡 森 矩阵 。 梯 度 为 


wie 
JF) =| 2 _ | (2x; -1) | 





55 F(x) (4x2) 
th REE 
cae i. T F(x) 
V?F(x)= 
ax. = war. FX) Fa F(x) 

BR | 4x1 -4x1+3 (2x, - wd 

J (2x1 -1)(4x2) 163 +4 
EIRA Xw. A 

0.163 x 10° 
aa ie n i | 1.302 x A 

和 


0.049 x 107 -0.130 x | 


= V2F(x)| = 
i x=X | -0.130x10 1.107 x10 
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所 以 由 式 (9.43) 得 牛顿 法 的 第 一 次 选 代为 
a cl -| l | A 0.049 x 10’ onan D 0.163 x 10° | ai 0.971 | 
emer BOK Lo] ox 1107x10 | 1,302 x 105) | - 1.886 

这 一 点 离 R(x) 的 极 小 点 有 多 近 呢 ?首先 注意 到 F(x) Rt TKR: 
xt ~ x1 4+2x5+4 = SxTAx + d?x + c= dy? y 


F(x) 的 极 小 点 即 指数 部 分 的 极 小 点 ， 即 


"= | [oY 


所 以 牛顿 法 只 是 向 真正 的 极 小 点 收 合 了 一 小 步 。 这 是 因为 R(X) 无 法 由 一 个 二 次 痛 数 在 
xm=[1 -2j’ 的 邻 域内 精确 近似 。 

本 例 中 牛顿 法 可 以 收敛 到 真正 的 极 小 点 ， 但 要 经 过 多 次 迭代 。 图 9-16 所 示 为 牛顿 法 的 
轨迹 。 


x+{-1 O]x+4 
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P9.5 CARK% 





ERRAN 


试 比 较 牛 顿 法 和 最 快速 下 降 法 的 性 能 。 


解 
回忆 这 个 函数 是 关于 一 个 驻 点 止 槽 的 例子 ( 见 式 (8.$9) 和 图 8-19)。 其 梯度 是 


VF( Ax+d=| | 
F(x) = eS a ad 


ARE EE 
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z _ E 1 a | 
Vx) = A=| | i 


牛顿 法 为 
Xel = X; — A} g, 
ER: 由 于 替 森 矩阵 是 奇异 矩阵 ， 该 算法 无 法 实际 运行 。 从 第 8 章 的 讨论 我 们 知道 ， 该 
函数 没有 强 极 小 点 ， 但 沿 直线 x) = r 有 一 个 弱 极 小 点 。 
用 最 速 下 降 算法 会 出 现 什么 情况 呢 ?” 如 果 学 习 速 度 为 a=0.1， 从 初始 点 出 发 ， 前 两 步 


迭代 为 
1 1 0.9 
i =m 80 = |o] -oal -| 


| °° -oal 7 poe 
X% = X% 一 = — Í), = 
9-31 ie - 0.1 -2 = 0.2 


图 9-17 为 完整 的 轨迹 。 本 例 中 最 速 下 降 算 法 比 牛 顿 法 性 能 要 好 。 最 速 下 降 算 法 收敛 到 
一 个 极 小 点 ( 弱 极 小 点 )， 而 牛顿 法 不 收敛 。 第 12 章 我 们 要 讨论 一 种 将 牛顿 法 与 最 速 下 降 法 
相 结 合 的 技术 ， 以 克服 赫 森 矩阵 的 奇异 性 (或 类 奇异 性 ) 的 影响 。 





图 9-17 例题 P9.5 在 a=0.1 时 的 最 速 下 降 轨 迹 
P9.6 CAA% 


F(x) = x? + xix- xta? 
(i) MBRAw=[1 1]7， 求 牛顿 法 的 一 次 迭代 。 
(ii) 求 F(x) 关 于 wo 的 二 阶 泰勒 级 数 展开 。 这 个 二 次 函数 在 (切中 的 x, 点 能 达到 极 小 值 
吗 ? 试 解 释 。 
解 
(i) F(X) 的 梯度 为 


9 
Ja, F(X) 3x? + xa- 21% 
V F(x) 一 = 


xı — 2x1 x> 


[9-32] REEN 
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V2F(x) = he —~2x5 1- | 
l — 4x, x2 一 2x] 
在 初始 点 有 
2 
E VFO x p | 


a 


A VFO y 7 p -2 


0 


AE RUE A 
f E aia | 4 oe i ea ES baad 
a ea = 1) l-3 -2) L-1} "11.1176 
(ii) 由 式 (9.40)，F(x) 在 wo 的 二 阶 泰勒 级 数 展开 式 为 
F(x) = F(x + AXo) = F(X) + BEAX + AX AoAxo 


111 1 11]1[4 -3 | $ 
b+ a [x- a sa | 


1 
4 -3 

+ 

该 函数 在 x, 有 一 个 驻 点 。 问 题 在 于 该 驻 点 是 否 是 一 个 强 极 小 点 。 这 可 由 赫 森 矩阵 的 特 
征 值 确定 。 如 果 两 个 特征 值 都 为 正 ， 则 它 是 一 个 强 极 小 点 。 如 果 两 个 特征 值 都 为 负 ， 则 它 是 
一 个 强 极 大 点 。 如 果 两 个 特征 值 符号 相反 ， 则 它 是 一 个 鞍点 。 本 例 中 A 的 特征 值 为 

A = 5.24,a. =- 3.24 

由 于 这 是 一 个 鞍点 ， 所 以 F(x) 在 xo 的 二 次 近似 在 xi 点 没有 极 小 化 。 图 9-18 所 示 为 
F(x) 的 轮廓 线 图 及 其 二 次 近似 。 

这 种 问题 也 在 图 9-18 和 图 9-19 中 有 说 明 。 牛 顿 法 无 法 确定 当前 点 是 否 为 函数 的 二 次 近 
似 的 驻 点 ， 它 不 能 区 分 极 小 点 、 极 大 点 和 鞍点 。 














F(x) =~ 1+ [2 -lx-| 


化 简 得 





F(x) =-2+[1 4]x4 sx" 





图 9-18 ”牛顿 法 在 加 =[1 1] KKE 
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P9.7 RLSM EA EMAA P9.3 WOR., 
解 
E MAKAN 


l 


10 2 
F(x) = 0.25+[-2 -1)x+ 5x" | 


2 4 





在 Xp 梯度 为 
go = VF(%) = Amy +d=| nin -| -| 


2 44311 
于 是 第 一 次 搜索 方向 为 
— 10 
p=-ge=|_ 5 | 
_9-34| 要 使 二 次 函数 沿 直 线 极 小 化 ， 可 以 用 式 (9.31): 
go Po as s]| M 





m Ta al E 
FAW SE Se BE BETA HSB — ETA 
10] [0.038 
a f | K 0962| - 5 | - lo s19. 


现在 用 式 (9.60) 求 第 二 个 搜索 方向 。 首 先 求 x 点 的 梯度 ， 
wp A bape in oil 
815 O xax 0.519] *L-1J ZL 1.154 
现在 求 Bi: 


- 0.577 


ore | 
34 - _ 1.665 _ 0.0133 


o gogo p [10 5]| "| R 
这 里 使 用 了 PoLak 和 Ribiére( 式 (9.63)) 的 方法 。( 求 B) WAIARI AER L RR RA 
变 。 可 试 一 下 。) 于 是 第 二 次 搜索 方 同 为 : 
- 10 0.444 
Pi =~ 81 +PP = ie 1. HA + 0.0133| Pi 7 | 
由 式 (9.31) 求 第 二 次 迭代 的 学 习 速 度 为 


[- 0.577 1.154]| °° 


Ag Tg, [ - 10.577 - 3.846]| 
0 





1.220 — 1.664 
Dada) = 3558 = 0.2889 


- 1.220 





q = 


oma -iz 让 


9-35] 因此 共 斩 梯 度 法 的 第 二 次 和 迭代 为 
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0.038 0.444 | [0.1667 
0.519 ~1.220] 10.1667 


经 过 两 次 迭代 如 期 到 达 极 小 点 ， 轨 迹 如 图 9-19 所 示 。 


+ 0.2889| 





X2 = X; + ap, -| 


2 
= 0 1 


图 9-19 例题 P9.7 AUFEPE RE E h 


P9.8 ERRE ERER., 
让 
设 同 量 集 i p,, Pj»  ， p. ,| 对 苗木 矩阵 A SEH. 如 果 这 些 同 量 线性 相关 ， 则 由 式 


(5.4) 有 


gs，a1，…，a,_1 为 不 全 为 零 的 常数 。 
用 pi/A 乘 以 上 式 两 边 ， 则 有 


pIA2 ap, = > ajp Ap, = ap} Ap, = 0 
BARBARO SIKFHEMRH EN. MRA 是 正定 的 (存在 一 个 惟一 的 强 极 小 后 )， 
Wp Ap, 为 严格 正 的 。 这 表明 对 所 有 的 k，ai DAS, SRP. MURR B—-eR 
性 无 关 。 


9.5 结束语 


本 章 介绍 了 三 个 不 同 的 优化 算法 : BGR FRA, FO, HE. RoR 
础 是 泰勒 级 数 展开 。 最 速 下 降 法 由 一 阶 泰勒 展开 导出 ， 而 牛顿 法 和 共 辊 梯度 法 则 用 于 二 阶 
(ZKKK. 

最 速 下 降 法 的 优点 是 简单 且 只 要 计算 梯度 。 如 果 学 习 速度 足够 小 ， 它 还 能 保证 收 伍 到 一 
个 驻 点 。 其 缺点 是 训练 时 间 通 常 比 其 他 算法 长 ， 当 二 次 函数 替 森 矩阵 的 特征 值 相 差 很 大 时 天 
其 如 此 。 

牛顿 法 通常 比 最 速 下 降 法 快 得 多 。 对 于 二 次 函数 ， 它 能 够 一 次 迭代 收 化 到 一 个 驻 点 。 它 
的 一 个 缺点 是 需要 计算 和 存储 赫 森 矩阵 及 其 逆 矩 隆 。 另 外， 牛顿 法 的 收敛 特性 也 很 复 末 。 第 
12 章 我 们 将 介绍 经 过 修正 的 牛顿 法 ， 它 克服 了 原 标准 算法 的 缺点。 

共 固 梯度 算法 是 最 速 下 降 法 与 牛顿 法 折 中 的 产物 。 它 能 在 有 限 的 迭代 步 数 内 收敛 到 二 次 
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函数 的 极 小 点 ， 且 不 需要 计算 和 存储 赫 森 矩阵 。 它 最 适合 于 解决 参数 量 很 大 旦 赫 森 矩阵 的 计 


算 和 存储 不 可 行 时 的 问题 。 

后 面 的 几 章 我 们 将 把 这 些 优化 算法 用 于 训练 神经 网 络 。 第 10 章 将 介绍 一 种 最 速 下 降 的 
近似 算法 ， 即 Widrow-Hoff 学 习 ， 可 用 于 训练 线性 网 络 。 第 11 章 推 广 用 于 训练 多 层 网络 
Widrow-Hoff 学 习 。 在 第 12 章 ， 共 罗 梯 度 算 法 和 牛顿 法 的 一 个 变形 将 用 于 加 速 多 层 网 络 的 
训练 。 
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习题 
E9.1 在 例题 p9 .1 中 我 们 讨论 了 应 用 于 典型 的 二 次 函数 的 最 速 下 降 算 法 的 最 大 稳定 学 
习 速 度 的 求解 。 如 果 采 用 较 大 的 学 习 速 度 ， 算 法 是 否 一 定 发 散 ? 或 者 说 是 否 存在 


保证 算法 收敛 的 条 件 ? 
E9.2 求 下 列 函 数 的 极 小 点 : 


6 -2 _ 
F(x) -了 | |+ i-i sd X 


(i) 画 出 该 函数 的 轮廓 线 图 。 
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(ii) 在 (的 轮廓 线 图 上 画 出 最 速 下 降 算 法 的 轨迹 ， 设 初始 点 为 如 =[0 0], 学 
习 速 度 足 够 小 。 

(iii) 若 学 习 速 度 a=0.1， 进 行 最 速 下 降 算法 两 次 迭代 。 

(iv) 最 大 的 稳定 学 习 速 度 是 多 少 ? 

(v) 对 于 (i 中 给 定 的 初始 点 求 最 大 的 稳定 学 习 速 度 。( 见 习题 E9.1。) 

(vi) BH MATLAB 的 M-file 文件 ， 实 现 本 题 中 的 最 速 下 降 算 法 ， 并 用 以 检验 从 
(让 到 (v) 的 答案 。 

E9.3 GH KAŽ 
F(x) = «7 +2x4 


+ CQ 
[| 


] 
ia $ 
(ii) 证 明 F(x) 在 (i) 题 中 的 极 小 点 处 的 梯度 垂直 于 最 小 化 的 搜索 方 回 。 
E9.4 对 习题 E8.3 中 的 函数 ， 从 初始 的 估计 值 ww = [1 1] 开始 ,用 线性 最 小 化 的 最 
速 下 降 法 迭代 两 次 。 写 出 MATLAB 的 M-file 文件 ， 检 查 答 案 。 
E9.5 SREP MM wR: 
F(x) = [1 + (x + X%2 一 S)“ L] T (3x, = 2x3) ] 
(i) 从 初始 估计 值 ww = [10 10】 开始， 用 牛顿 法 迭代 一 次 。 
(ii) 从 初始 估计 值 x = [2 ” 2] 开始， 重复 (i) 题 中 的 操作 。 
(iii) 求 函 数 的 极 小 点 ， 并 与 前 两 部 分 的 结果 比 校 。 
E9.6 考虑 习题 E8.5 中 的 函数 。 写 出 求 此 函数 的 最 速 下 降 法 和 牛顿 法 的 MATLAB 
M-file 文 件 。 对 不 同 的 初始 值 ， 测 试 算法 的 性 能 。 
E9.7 使 用 共 轿 梯度 算法 重 做 习题 E9.4。 对 式 (9.61) ~ (9.63) 中 的 三 种 方法 ， 每 种 方法 
至 少 做 一 次 。 
E9.8 证 明 或 反驳 下 面 的 断言 : 
若 p HF p, E p, HF p, U p AHF ps 
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10.1 目的 


在 前 面 两 章 的 学 习 中 ， 我 们 打下 了 性 能 学 习 的 基础 。 可 以 看 到 ， 网 络 通过 训练 来 优化 其 
性 能 。 在 本 章 中 ， 将 会 把 性 能 学 习 的 原理 用 于 单 层 线性 神经 网 络 。 

Widrow-Hoff 学 习 算 法 是 一 个 近似 最 速 下 降 法 ， 其 中 性 能 指标 是 均 方 误差 。 这 个 算法 很 
重要 ， 原 因 有 两 个 : 第 一 ， 它 被 广泛 使 用 于 现在 的 信号 处 理应 用 中 ， 其 中 有 几 个 应 用 将 在 本 
章 介绍 ; B, CESENA t BP 算法 的 先驱 (BP 算法 将 在 第 11 章 中 讲述 )。 


10.2 理论 和 实例 


Bernard Widrow FÆ 20 世纪 五 十 年 代 末 便 开始 了 神经 网 络 的 研究 工作 ， 几 乎 在 同一 时 
期 ，Frank Rosenblatt 设计 了 感知 机 学 习 规 则 。 在 1960 年 ，Widrow 和 他 的 研究 生 Marcian 
Hoff 引入 了 ADALINE( ADAptive Linear NEuron, 自 适 应 线性 神经 元 ) 网 络 和 一 个 称 为 LMS 
(Least Mean Square， 最 小 均 方 ) 算 法 的 学 习 规 则 [WiHo60j] 。 

他 们 的 ADALINE 网 络 与 感知 机 非常 相似 ， 不 同 之 处 在 于 它 的 传输 比 数 是 线性 申 数 而 不 
是 硬 极限 函数 。ADALINE 和 感知 机 均 受 同样 的 局 限 性 的 影响 : 它们 只 能 解决 线性 可 分 问 
题 。 但 是 ，LMS 算法 比 感知 机 学 习 规 则 要 强大 得 多 。 感 知 机 规则 能 保证 将 训练 模式 收敛 到 
一 个 可 正确 分 类 的 解 上 ， 但 得 到 的 网 络 对 噪声 敏感 ， 因 为 训练 模式 常 接 近 网 络 的 判定 边界 。 
而 LMS 算法 使 均 方 误差 最 小 化 ， 从 而 使 网 络 的 判定 边界 尽量 远离 训练 模式 。 

LMS 算法 在 实际 中 的 应 用 比 感知 机 学 习 规 则 多 ， 尤 其 是 在 数字 信号 处 理 领 域 。 例 
如 ， 大 多 数 长 距离 电话 线路 使 用 ADALINE 网 络 来 消除 回声 。 本 章 将 在 后 面 详细 讨论 这 些 应 
用 。 

因为 LMS 算法 在 信号 处 理应 用 中 取得 了 巨大 成 功 ， 而 该 算法 在 多 层 网 络 中 则 不 太 成 功 ， 
所 以 在 20 世纪 60 年 代 早 期 ，Widrow 中 止 了 他 在 神经 网 络 方面 的 工作 ， 而 开始 全 力 研 究 目 
适应 的 信号 处 理 。 直 到 80 年 代 ， 他 才 重 返 神经 网 络 领域 ， 并 开始 研究 自 适应 控制 中 神经 网 
络 的 使 用 。 在 研究 中 使 用 了 由 他 最 初 的 LMS 算法 得 到 的 时 间 反 向 传播 法 。 


10.2.1 ADALINE 网 络 


ADALINE 网 络 如 图 10-1 所 示 。 注 意 ， 它 具有 与 第 4 章 中 所 讨论 的 感 却 机 网 络 相 同 的 基 
本 结构 。 人 惟一 的 不 同 点 是 它 使 用 了 一 个 线性 传输 函数 。 
网 络 输出 由 下 式 给 出 : 
a = purelin(Wp + b) = Wp + b (10.1) 
回忆 过 去 对 感知 机 网 络 的 讨论 可 得 到 网 络 输出 向 量 的 第 i TRN: 
a; = purelin(n;) = purelin(;w7p + b;) = ;w'p + b; (10.2) 
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输入 线性 神经 元 





a= purelin(Wp+b) 


图 10-1 ADALINE 网 络 


这 里 ，;W 由 WHS i 行 元 素 组 成 : 
iw = Á (10.3) 


单 层 ADALINE 网 络 
为 了 简化 讨论 ， 这 里 考虑 一 个 两 输入 的 单 层 ADALINE 网 络 ， 如 图 10-2 所 示 。 网 络 的 
输出 由 下 式 给 出 :; 


Q = purelin(n) = purelin(1w’p +b) = wp +b 
(10.4) 


T 
=W p+ 0 = WI iPi + W1i,2Pa t b 


输入 两 输入 神 元 层 


p Wi, 


I i 
mea 
P2 wi lb 


LY l 
a = purelin(Wp+b) 


图 10-2 两 输入 的 线性 神经 元 


由 第 4 章 知 道 ， 感 知 机 有 一 个 判定 边界 ， 它 由 净 输 入 为 ONRMAM BARE. RA, 
ADALINE 是 否 也 有 这 样 一 个 边界 呢 ? 显然 是 这 样 的 。 看 设 n = 0， 则 1w'p + b=0, FEM 
了 如 图 10-3 中 的 一 条 线 。 

图 中 灰色 区 域 对 应 的 神经 元 输出 大 于 0， 白 的 区 域 中 神经 元 输出 小 于 0。 那 么 对 ADA- 
LINE 这 意味 着 什么 呢 ? 它 说 明 ADALINE 网 络 可 将 对 象 分 为 两 类 。 然 而 ， 只 有 对 象 是 线 
性 可 分 时 它 才能 做 到 这 一 点 。 因 此 ， 在 这 一 点 上 ，ADALINE 网 络 具 有 和 感知 机 同样 的 限 
al, 
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图 10-3 两 输入 ADALINE 的 判定 边界 


10.2.2 WARES 


前 面 已 看 到 了 ADALINE 网 络 的 性 质 ， 下 面 开 始 LMS 算法 的 讨论 。 与 感知 机 规则 一 样 ， 

LMS 算法 也 是 有 监督 训练 的 一 个 例子 ， 其 中 ， 学习 规 则 将 使 用 一 个 正确 的 行为 样本 的 集合 : 
[pb ip tis. {po,to! (10.5) 

ZE, p 是 网 络 的 一 个 输入 ，#t 是 对 应 的 目标 输出 。 网 络 每 输入 一 个 数据 ， 便 将 网 络 输 出 
与 目标 输出 相 比 较 一 次 。 

为 使 均 方 误差 最 小 化 ，LMS 算法 将 调整 ADALINE 网 络 的 权 值 和 偏 置 值 。 这 里 的 误差 指 的 
是 目标 输出 和 网 络 输出 之 差 。 本 节 中 我 们 要 讨论 这 个 性 能 指数 。 首 先 考 虑 单 神经 元 的 情况 。 

为 简化 讨论 ， 我 们 将 所 有 要 调整 的 参数 ， 包 括 偏 置 值 ， 组 成 一 个 疝 量 . 


M (10.6) 
b 


类 似 地 ， 我 们 将 偏 置 值 输入 1” 作为 输入 向 量 的 一 部 分 : 
j= [P (10.7) 


X = 





对 网 络 输出 ， 我 们 通常 用 下 式 来 表示 : 


a=Iw'p+bp (10.8) 
现在 ， 可 以 将 它 写作 
a=x'Z (10.9) 
均 方 误差 ” 这样， 我 们 可 以 方便 地 写 出 ADALINE 网 络 的 均 方 误差 的 表达 式 : 
F(x) = Ele] = E[(t -a)?] = E[(t -x"z)*] (10.10) 


其 中 ,期望值 在 所 有 输入 /输出 对 上 求 得 。( 这 里 使 用 E[ ARDHA, HERREN 
义 定义 ， 即 确定 性 信和 号 的 时 间 平 均值 。 参 见 [ WiSt85]。) 上 式 可 扩展 为 : 
F(x) = E[t? - 2tx’z + X ZZ x] 
= E[t] - 2x7E( tz] + x’E[zz" |x 


这 可 以 表示 成 下 面 更 方便 的 形式 : 
F(x) = c - 2x"h + x’ Rx (10.12) 


(10.11) 


其 中 
c= Elt],h = Eltz) HR = El[zz"| (10.13) 
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相关 和 矩阵 ”在 这 里 ， 向 量 h 给 出 输入 向 量 和 对 应 目标 输出 之 间 的 相关 系数 ， 及 是 输入 的 
相关 和 给 阵 。 和 窍 阵 的 对 角 线 元 素 等 于 输入 回 量 元 系 的 均 方 什 。 
ST (8.35) PHAR RRA 


F(x) = c+d’x+ b x"Ax (10.14) 


将 它 与 等 式 (10.12) 相 比较 ， 我 们 可 以 看 到 ，ADALINE 网 络 的 均 方差 性 能 指数 是 一 个 二 次 
PRX, HF 
d=-2hHA = 2R (10.15) 

这 是 一 个 很 重要 的 结果 。 从 第 8 AFRIKE, —KRANERESRRERRAE 
A, 例如 ， 若 赫 森 矩阵 的 特征 值 全 是 正 的 ， 则 函数 有 一 个 惟一 的 全 局 最 小 点 。 

XE, HAEREERE R 的 两 倍 ， 并 且 所 有 相关 和 矩阵 是 正定 的 或 半 正 定 的， 这 意 
际 着 它们 决 不 会 有 负 的 特征 值 。 但 是 还 有 两 种 可 能 ， 阁 相关 甜 阵 只 有 正 的 特征 值 ， 性 能 指数 
将 有 一 个 惟一 的 全 局 极 小 点 ( 见 图 8-8); 若 相 关 和 矩阵 有 一 些 特 征 值 为 0， 性 能 指数 将 有 一 个 
弱 极 小 点 ( 见 图 8-10) 或 没有 极 小 点 ( 见 问题 8-8) ， 这 取决 于 是 否 有 问 量 d= - 2h。 

现在 来 确定 性 能 指数 的 驻 点 。 从 前 面 对 二 次 函数 的 讨论 我 们 知道 ， 梯 度 为 : 


VF(x) = v(e+drx+ 方 xTAxj = d + Ax = - 2h + 2Rx (10.16) 
FE(x) 的 驻 点 可 以 通过 令 梯 度 等 于 0 来 求 得 ; 
~ 2h + 2Rx = 0 (10.17) 
因此 ， 若 相关 和 矩阵 是 正定 的 ， 则 将 有 一 个 惟一 的 驻 点 ， 它 是 一 个 强 极 小 点 :; 
x* = R-!h (10.18) 


值得 注意 的 是 ， 惟 一 解 的 存在 只 依赖 于 相关 和 矩阵 R。 因 此 ， 输 入 向 量 的 性 质 决 定 了 是 否 
存在 惟一 解 。 
10.2.3 LMS 算法 


前 面 已 分 析 了 性 能 指数 ， 下 一 步 是 设计 一 个 确定 极 小 点 的 算法 。 知 能 计算 出 统计 量 h 和 
R， 就 能 从 式 (10.18) 直 接 求 出 极 小 点 。 若 不 想 计 算 R 1， 可 以 对 由 式 (10.16) 计 算得 来 的 梯 
度 使 用 最 速 下 降 法 。 然 而 ， 通 常 并 不 希望 或 不 方便 计算 h 和 R。 因 而 ， 我 们 将 使 用 一 个 近似 
的 最 速 下 降 法 ， 其 中 使 用 一 个 估计 的 梯度 值 。 
Widrow 和 Hoff 的 主要 观点 是 用 下 式 来 估计 FO) NSA: 
F(x) = (t(k) - alk))? = elk) (10.19) 
其 中 均 方 误差 的 期 望 被 第 大 次 迭代 时 的 均 方 误差 所 代 兰 。 因 而 ， 每 次 送 代 中 ， 梯 度 估计 值 
为 : 
VF(x) = Ve2(k) (10.20) 
Ver(k) BU R 个 元 素 是 关于 网 络 权 值 的 导数 值 ， 第 ( R + 1) 个 元 素 则 是 关于 偏 置 值 的 导 
数值 。 于 是 有 
[Ver(k)], = Pe = 2elk) Se j = 1,2,.…,R (10.21) 


K 
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2 
Ver (k)Jan = EE = 20( 4) IRE (10.22) 


下 面 考虑 上 述 等 式 中 后 面 的 偏 导数 项 。 首 先 计算 e() 对 网 络 权 值 wi 的 偏 导数 : 
de(k) Mik) = o(k)] __9 Tg) (wrp(k) + b)] 
l,j 











Fwy; Ow Ow), 
; R (10.23) 
= Fw. fiw 7 [È wip) +b | 
其 中 p(k) BS 左 次 迭代 中 输入 向 量 的 第 ; 个 元 素 。 上 式 可 简化 为 : 
TA = - p(k) (10.24) 
类 似 地 可 以 得 到 梯度 的 最 后 一 项 : 

1 (10.25) 

注意 p(k) Al 1 是 输入 向 量 z 的 元 素 ， 因 此 第 上 次 迭代 时 均 方 误差 的 梯度 为 : 
VF(x) = Ve2(k) = —2e(k)z(k) (10.26) 


现在 我 们 可 以 看 到 用 大 次 选 代 时 的 单个 误差 来 近似 均 方 误差 的 好 处 ， 如 在 式 (10.19) 
中 。 要 计算 这 个 梯度 的 近似 值 ， 我 们 只 需 用 误差 滋 输 入 。 

VF(x) 的 近似 量 可 被 用 于 最 速 下 降 法 。 根 据 式 (9.10)， 有 具有 固定 的 学 习 速 度 的 最 速 下 降 
法 为 


X}, = X; 一 aV F(x) (10.27) 
X=X, 
FAR (10.26) PAV F(x) REV F(x), BT LAB SY 

Xin) = X; + 2ae(k)z(k) (10.28) 

或 
wk +1) = wk) + 2ae(k)p(k) (10.29) 

和 
b(k +1) = b(k) + 2ae(k) (10.30) 


最 后 两 个 等 式 构 成 了 最 小 均 方 (LMS) 算 法 ， 它 称 为 8 规则 或 Widrow-Hoff 学 习 算 法 。 
前 面 的 结果 可 加 以 修改 用 来 处 理 有 多 个 输出 的 情况 ， 即 有 多 个 神经 元 ， 如 图 10-1。 更 


:Wk+1) = ;wlk) + 2ae;(k)p(k) (10.31) 
其 中 ，e,(k) 是 第 次 迭代 时 的 第 i 个 元 素 。 更 新 偏 置 值 的 第 i TREH 
bi(k+1) = b;(k) + 2ae;(k) (10.32) 
LMS 算法 LMS 算法 可 以 方便 地 用 和 矩阵 记号 表 不 : 
W(k +1) = W(k) + 2ae(k)p’ (k) (10.33) 
和 
blk +1) = b(k) + 2ae(k) (10.34) 


注意 这 里 误差 e 和 偏 置 但 b 是 向 量 。 


ww ai bbt. com DODODODOODODOD 


#10% Widrow-Hotf Ë 3 JE 173 


10.2.4 收敛 性 分 析 


第 9 章 中 已 分 析 过 最 速 下 降 法 的 稳定 性 。 那 里 ， 我 们 发 现 二 次 函数 的 最 大 稳定 学 习 速 度 
为 a< 2 作 %o.， 其 中 和 nas 是 赫 森 秆 阵 的 最 大 特征 值 。 下 面 我 们 分 析 LMS 算法 的 收敛 性 ， 它 与 
最 速 下 降 法 近似 。 我 们 将 发 现 结果 是 一 样 的 。 

首先 注意 LMS 算法 式 (10.28) 中 ，x Ree zk -1)，z( -2), =, 200) RRM. AiR 
定 后 继 的 输入 向 量 是 统计 独立 的 ， 则 x, 独立 于 zk)。 下 面 我 们 将 说 明 ， 对 满 是 这 个 条 件 的 
稳 态 输入 过 程 ， 权 癌 量 的 期 望 值 将 收敛 于 

x* = R'h (10.35) 
OR ER) IgA iRz# | E e1]! RE ROE (10.18) PAPULAR) .- 
回忆 LMS 算法 ( 式 (10.28)): 


Xi 1 = X; + 2ae( k)z(k) (10.36) 
两 边 求 期 望 得 : 
Elx,.,] = Elx,] + 2aEle(k)z(k))] (10.37) 
将 误差 用 (hk) -x zl hk RA: 
E(x,41] = Elx,] + 2al Elt(k)z(k)] - EL (x 2(k))2(k) JI (10.38) 
BG, Fz’ (k)x, 替换 xik), BAU: 
E(x..)] = Elx,] + 2al El tiz(k)] - EL (z(k)z’(k))x;]? (10.39) 
由 于 x, Bhar zk), MATI: 
E(x,.,] = Elx,] + 2aih - RELx,|| (10.40) 
即 
E[x,,,] = [I - 2aR] E(x,) + 2ah (10.41) 


当 [I- 2aR] 的 所 有 特征 值 落 在 单位 圆 内 时 ， 此 动态 系统 趋 于 稳定 ( 见 [Brog91j。 从 第 9 
章 中 知道 ，[I- 2aR] 的 特征 值 将 为 1 - 2;， 其 中 入 是 R 的 特征 值 ， 因 此 系统 稳定 的 条 件 


A: 


1 - 2aA; >- 1 (10.42) 
由 于 A; >0, 1-20; 总 是 小 于 1。 因 此 ， 稳 定 的 条 件 为 : 
a < 1 ,对 所 有 i (10.43) 
或 
O<a < nw (10.44) 


注意 此 条 件 等 价 于 我 们 在 第 9 章 中 推导 出 的 最 速 下 降 法 的 条 件 ， 不 过 在 那里 使 用 的 是 赫 
SMe A 的 特征 值 。 这 里 我 们 用 的 是 输入 相关 和 矩阵 及 的 特征 值 。( 回 忆 A = 2R。) 硅 此 稳定 性 
条 件 满足 ， 则 稳 态 解 为 : 

Elx,] = [I - 2aR]E[x,] + 2ah (10.45) 
或 
E[x.] = Rth = x* (10.46) 

因此 ， 每 次 输入 一 个 输入 向 量 得 到 的 LMS 的 解 ， 与 式 (10.18) 中 最 小 均 方 误差 的 解 是 相 

同 的 。 
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为 测试 ADALINE 网 络 和 LMS 算 法， 再 考虑 在 第 3 RPh R/T Kae. 
为 简单 起 见 ， 我 们 假定 ADALINE 网 络 的 偏 置 值 为 0。 
式 (10.29) 中 的 LMS 权 值 更 新 算法 被 用 来 在 网 络 训练 的 每 一 步 中 计算 新 的 权 值 : 
W(k +1) = W(k) + 2ae(k)p’(k) (10.47) 
首先 计算 最 大 稳 态 学 习 速 度 a。 通 过 求解 输入 相关 和 矩阵 的 特征 值 可 以 得 到 它 。 权 子 和 玄 
果 问 量 以 及 它们 相应 的 目标 输出 为 : 


1 
In = 1 «Cap = 
— 1 


si 
大 假定 输入 向 量 是 以 相等 概率 随机 产生 的 ， 则 可 以 如 下 计算 输入 相关 矩阵: 


-1 
7 1 r, l f 
R= Elpp | = 方 plPi + > PoP» 


l | 1 0 -11 (10.49) 
sH -ifa -1 -1+5] 1 ju 1 -0=|o 1 0 
_ 1 =l -1 0 1 


R 的 特征 值 为 : 








a) (10.48) 








à = 1.0, à = 0.0, As = 2.0 (10.50) 
因此 ， 最 大 稳 态 学 习 速 度 为 


ep et 
TE 


1 
e O20 
若 保 守 些 ， 可 以 取 a=0.2。( 注 意 ， 在 实际 应 用 中 ， 计 算 R 可 能 是 不 实际 的 ， 这 时 可 通 
过 试 错 的 办 法 来 选择 a 的 值 。 选 择 a 的 其 他 方法 可 参见 | WiSt85 |.) 
开始 时 ， 我 们 可 将 所 有 权 值 设 为 0， 然后 应 用 输入 po ，p,，p,;，p, 等 ， 每 次 输入 给 出 后 
便 计算 新 的 权 值 。( 不 必 以 交替 的 顺序 给 出 权 值 ， 一 个 随机 的 顺序 就 行 7 了 。) 给 出 pi 橘子) 和 
其 目标 输出 - 1， 我 们 得 到 





='0.5 (10.51) 


E 


l 


a(0) = W(0)p(0) = W(0)p, = [0 0 of -1 
- 1 


= 0 (10.52) 





e(Q) = t(0) 一 a(0) = tj - a(Q) =-l-0=-1 (10.53) 


现在 我 们 可 以 计算 新 的 权 和 矩阵 : 
W(1) = W(0) + 2ae(0)p7(0) 


T 
(10.54) 
= [0 0 0] + 2(0.2)(- ofa =[-0.4 0.4 0.4] 
- 1 
下 一 次 给 出 p, (苹果 ) 和 它 的 目标 输出 1: 


l 
-1 
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Kil, REA 
e(1) = t(1) 一 all) = to 一 a(l) = l- (- 0.4) = 1.4 (10.56) 
现在 我 们 计算 新 的 权 值 . 
W(2) = W(1) + 2ae(1)p7(1) 
] T 
- [-0.4 0.4 | 1 = [0.16 0.9 -0.16) (10.57) 
=i 
下 一 步 再 次 给 出 橘子 的 值 : 
] 
a(2) = W(2)p(2) = W(2)p, = [0.16 0.96 - v.16] - l - — 0.64 (10.58) 
=Í 


误差 为 
e(2) = 1(2) ~ a(2) = t, - a(2) = -1-(- 0.64) =- 0.36 (10.59) 
新 的 权 值 为 : 
W(3) = W(2) + 2ae(2)p7(2) = [0.016 1.1040 - 0.0160] (10.60) 
若 继 续 此 过 程 ， 算 法 将 收敛 于 
Wie) =[0 1 0] (10.61) 


与 第 4 章 中 由 感知 机 学 习 规 则 得 到 的 结果 相 比 较 。 可 以 注意 到 ，ADALINE 产生 和 第 3 
章 中 为 苹果 /橘子 问题 设计 的 相同 的 判定 边界 。 这 个 边界 处 于 两 个 参考 模式 的 中 间 。 感 知 机 
规则 不 产生 这 样 一 个 边界 。 这 是 因为 ， 尽 管 一 些 模式 可 能 接近 于 边界 ， 一 旦 模式 被 正确 地 分 
类 ， 感 知 机 规则 便 中 止 了 。LMS 算法 使 均 方 误差 最 小 化 ， 因 而 它 尽力 使 判定 边界 远离 参考 
模式 。 


10.2.5 自 适 应 滤波 


正如 我 们 在 本 章 开 始 时 提 到 的 ，ADALINE 网 和 
络 具有 和 感知 机 网 络 相同 的 限制 ; 它 只 能 解决 线 。 p(k) = y(k) 
性 可 分 问题 。 尽 管 有 此 缺陷 ，ADALINE 的 应 用 范 7 
围 仍 比 感知 机 网 络 广 得 多 。 事 实 上 可 以 有 把 握 地 D 
说 ， 它 是 实际 应 用 中 使 用 最 广 的 神经 网 络 之 一 。 pk) = y(k- 1) 
ADALINE 的 一 个 主要 应 用 领域 便 是 自 适 应 滤波 ， D 
现在 它 仍 被 广泛 地 使 用 着 。 本 节 中 我 们 将 介绍 一 
个 自 适应 滤波 的 例子 。 
抽 头 延迟 线 ”为 了 将 ADALINE 网 络 用 作 目 | D 
适应 滤波 器 ， 我 们 先 介绍 一 个 新 的 构造 块 : 抽 头 p(k) =y(k-R+1) 
延迟 线 。 图 10-4 所 示 为 带 有 R 个 输出 的 抽 头 延迟 | 
线 。 
信号 从 左边 输入 。 在 延迟 线 的 输出 端 是 一 个 








图 10-4 抽 头 延迟 线 
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R 维 的 向 量 ， AS 4RNAI Af SABER 12 R -1 时 间 步 的 输入 信号 。 
自 适应 滤波 器 ” 若 将 一 个 延迟 线 与 一 个 ADALINE 网 络 结合 起 来 ， 我 们 就 能 得 到 一 个 自 
适应 滤波 器 ， 如 图 10-5 所 示 。 滤 波 器 的 输出 为 : 


R 
alk) = purelin(Wp + b) = Dd, w, v(k-i+1) 46 (10.62) 
i= | 


输入 ADALINE 


y(k) 





a(k) = purelin(Wp(k) +b) 


[10-14 图 10-5 ig EAE ADALINE 


读者 要 是 对 数字 信和 号 处 理 熟 悉 的 话 ， 可 以 看 到 图 10-5 中 的 网 络 就 是 一 个 有 限 脉 冲 响应 
(FIR) 滤 波 器 [WiSt85]。 数 字 信 号 处 理 领域 的 内 容 已 超出 本 书 的 范围 ， 不 过 我 们 仍 可 以 通过 
一 个 简单 但 实用 的 例子 来 展示 这 个 自 适 应 滤波 器 的 用 处 。 

1. FERRER 

自 适 应 滤波 器 可 以 通过 各 种 各 样 的 办 法 来 使 用 。 下 面 的 例子 中 ， 我 们 用 它 来 消除 噪声 。 
你 最 好 花 一 点 时 间 来 看 看 这 个 例子 ， 因 为 它 与 你 所 期 望 的 有 点 不 一 样 。 例 如 ， 网 络 力求 将 其 
减 至 最 小 的 输出 “误差 "， 实 际 上 却 是 我 们 试图 要 恢复 的 信号 的 近似 1 

假设 没有 一 个 医生 正 试图 检查 一 个 心烦 意 乱 的 研究 生 的 脑 电 图 (EEG)。 他 发 现 要 看 的 信 
号 混杂 了 60Hz 噪声 源 发 出 的 噪声 。 他 以 在 线 的 方式 检查 病人 ， 想 观看 到 能 够 得 到 的 最 好 信 
号 。 图 10-6 表示 如 何 用 一 个 自 适 应 滤波 器 来 除去 噪声 信和 号 。 

所 图 所 示 ， 原 始 60H: 信号 样本 输入 到 一 个 自 适应 滤波 器 中 ， 并 通过 调整 它 的 元 件 来 使 
“误差 ”e 达到 最 小 。 滤 波 器 的 期 望 输出 是 被 干扰 了 的 EEG 信号 ;。 滤 波 器 尽量 复制 这 个 被 二 
扰 了 的 信和 号， 然而 它 仅 知道 初始 的 噪声 源 w。 因 此 ， 它 只 能 复制 ; 中 与 v 线性 相关 的 部 分 ， 

10-15) BP m。 结 果 ， 自 适应 滤波 器 试图 模拟 噪声 路 径 滤波 器 ， 因 而 滤波 器 的 给 出 a 将 接近 于 干扰 
噪声 m 。 通 过 这 样 的 途径 ， 误 差 。 将 接近 于 未 被 干扰 的 初始 EEG 信号 so 

在 下 面 这 个 单 正 蓄 波 噪声 源 的 简单 情况 下 ， 一 个 有 两 个 权 值 和 没有 偏 置 值 的 神经 元 就 足 
实现 需要 的 滤波 器 了 。 滤 波 器 的 输入 是 噪声 源 的 当前 值 和 前 一 个 值 。 这 样 有 两 输 和 人 的 普 波 器 
可 以 使 噪声 v 以 所 期 望 的 方式 被 削弱 和 发 生 相 移 。 滤 波 器 如 图 10-7 所 示 。 
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EEG 信和 号 Bae TS 恢复 信和 号 
S t e 





60Hz 的 噪声 源 


自 适 应 滤波 器 调整 为 最 小 误差 
(从 而 将 60 Hz 的 噪声 从 混 承 信号 中 消除 ) 


图 10-6 ”噪声 消除 系统 





alk) = wiu (k) + wi2a vk- 1) 


图 10-7 用 于 噪声 消除 的 自 适 应 滤波 器 


可 以 用 本 章 中 前 面 所 得 到 的 数学 关系 式 来 分 析 这 个 系统 。 首 先 需 要 得 到 输入 相关 和 矩阵 及 
和 输入 /目标 互相 关 回 量 h: 


R=[z z7],h= Elt z) (10.63) 
本 例 中 ， 输 入 向 量 由 噪声 源 的 当前 值 和 前 一 个 值 给 出 : 
v(k) 
wk) = a a (10.64) 
而 目标 是 当前 信号 和 被 过 滤 的 品 声 信号 之 和 ; 
t(k) = s(k)+ m(k) (10.65 ) 
将 R 和 4 的 表达 式 展开 可 以 得 到 : 
EL v*(k)] El[v(k)v(k -1)] 
= 6 ; 
Pieu E| v*(k - 1)] | Pe 
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E((s(k) + m(k))v(k -1)] (10.67) 


要 得 到 这 两 个 量 的 特定 值 ， 必 须 定 义 品 声 信 号 v, EEG 信号 s METRE m, iX 


pri « alate | 


里 我 们 假定 : EEG 信号 是 白 的 (一 个 时 间 步 与 下 一 时 间 步 不 相关 ) 随 机 信号 ， 且 均匀 分 布 于 


-0.2 和 +0.2 之 间 ， 噪 声 源 (以 180Hz 频率 采样 的 60Hz 正弦 波 ) 为 : 


v(k) = 1. 2sin{ Se] (10.68) 


干扰 EEG 信和 号 的 要 被 过 滤 的 噪声 是 按 1/10 削减 的 且 相 移 了 -7 的 噪声 源 : 


m(k) = 0. 12sin 人 ans + z) (10.69) 
现在 可 计算 输入 相关 和 矩阵 R 的 各 个 元 素 : 
E[v2(k)] = 1.2)? LS) (sin( £) ) = (1.2)20.5 = 0.72 (10.70) 
El v*(k -1)] = El v*(k)] = 0.72 (10.71) 
Lx Qa k ，2r( -1 
Elv(k)v(k -1)|= JAN sin“) (1.2 2sin E = 12) 
i (10.72) 
: (1.2)?0.5cos( =] - -0.36 
(这 里 我 们 使 用 了 一 些 三 角 恒 等 式 )。 
于 是 R 为 
0.72 -0.36 
| | (10.73) 
-0.36 0.72 
可 以 用 类 似 的 办 法 求 得 h。 首 先 考 虑 式 (10.67) 中 上 面 一 项 : 
EL (s(k) + m(k))v(k)] = ElsCk) oC k)j + EL m(k) ok) (10.74) 


因为 s(k) 和 vw(k) 独 立 且 均 值 为 0， 所 以 右边 第 一 项 为 0。 第 二 项 也 为 0; 
El m(k)v(k)] = 3 45 (o. 12sin( = + 到 (1. 2sin 2] = 0 (10.75) 


因此 ，h 的 第 一 个 元 素 为 0。 


再 考虑 h ICR: 
E[(s(k) + m(k))v(k -1)] = Els(k)v0(k -1)] + Elm(k)v(k - 1) (10.76) 


如 同 h 的 第 一 个 元 素 ， 因 为 (A) vlk- 1) 独 立 且 均值 为 0， 故 右边 第 一 -项 为 0。 第 二 项 为 : 


Elmo t= D] = + d(o. 12sin{ 2 + £)) (1.2sin E=) - — 0.0624 


(10.77) 


因而 ，h 为 


0 
| oii 


权 值 的 最 小 均 方 误差 由 式 (10.18) 给 出 : 


-1 
0.72 -0.36 0 _ 0.0578 

* —~ R-'h = | | | | = | | (10.79) 
_0.36 0.72 _ 0.0624 _ 0.1156 
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现在 ， 求 得 最 小 值 时 我 们 将 得 到 哪 种 误差 呢 ? 为 求 出 这 个 误差 ， 由 式 (10.12) 得 :; 
F(x) = c - 2x’h + x’ Rx (10.80) 
RERE x, hAR, AMAR c: 


c= Ele*?(k)J]= E[(s(k)+ m(k))?] 
= E[l s?(k)} +2E[s(k)m(k)] + El m?(k)] 


由 于 s(k)5 m( bk) VASA 0, AMPARA 0 E-W ENS KRAE, HA A 


(10.81) (10:18 





F: 

E[ s?(k)] = oa] a = eae. = 0.0133 (10.82) 

被 过 滤 的 噪声 的 均 方 值 为 

El m?(k)] = 3 È (0. 12sin{ F i x)) - 0.0072 (10.83) 

从 而 
c = 0.0133 + 0.0072 = 0.0205 (10.84) 

将 x*”，h 和 R 代 人 式 (10.80) 中 得 到 最 小 均 方 误差 

F(x*) = 0.0205 - 2(0.0072) + 0.0072 = 0.0133 (10.85) 


最 小 均 方 误差 与 EEG 信和 号 的 均 方 值 相同 。 这 正 是 我 们 所 期 望 的 ， 因 为 这 个 目 运 应 噪声 
消除 器 的 “误差 "事实 上 是 被 恢复 的 EEG 信号 。 

图 10-8 说 明了 学 习 速 度 a=0.1 时 LMS 算法 在 权 值 空间 中 的 轨迹 。 在 这 个 模拟 中 ， 初 
始 时 系统 的 权 值 w, Aw, ;分 别 被 随意 地 设 为 0 和 - 2。 从 图 中 可 以 看 到 ，LMS 的 轨迹 看 
起 来 像 有 噪声 时 的 最 速 下 降 法 。 





10-19 


10-8 «=0.1 Hf LMS 的 轨迹 
THER, CRAB T RRS (A = 2R) 的 特征 值 和 特征 回 量 为 : 


— 0.7071 
0.7071 


(参考 第 8 章 中 对 赫 森 矩阵 的 特征 系统 的 讨论 。) 
若 学 习 速 度 减 小 ，LMS 的 轨迹 将 比 图 10-8 中 的 更 光滑 ， 但 学 习 过 程 进行 得 更 慢 ; AS 


一 0:707 
- 0.7071 


À = 2.16,Zz; = | | , AQ = 0.72,Z — | (10.86) 
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习 速 度 增 加 ， 轨 人 迹 将 带 更 多 的 锯齿 状 且 呈现 振荡 。 事 实 上 ， 如 本 章 开始 时 所 述 ， 阁 学习 速 度 
增加 太 大 ， 系 统 将 根本 不 收银。 最 大 稳 态 学 习 速 度 为 a < 2/2.16=0.926。 

为 了 判别 噪声 消除 器 的 性 能 ， 考 虑 图 10-9。 这 幅 图 说 明了 滤波 器 如 何 自 适应 以 消除 品 
声 。 上 面 的 图 为 恢复 后 和 初始 时 的 EEG 信和 号。 开始 时 ， 恢 复 后 的 信号 与 初始 的 EEG 信号 极 
不 相似 ， 滤 波 器 用 了 约 0.2 秒 (ac=0.1) 的 时 间作 调整 ， 给 出 一 个 可 接受 的 恢复 信号 。 实 验 的 
后 半 段 中 ， 初 始 信号 和 恢复 后 的 信号 之 间 的 均 方差 为 0.002。 与 信和 号 的 均 方 值 0.0133 相 比 ， 
这 个 结果 是 不 错 的 。 初 始 信号 和 恢复 后 的 信号 之 间 的 差 表示 了 下 面 的 图 中 。 


初始 的 和 恢复 后 的 BEG 信和 号 


2 

| 

| NPA A 
-1 


2 00 01 015 02 025 03 035 04 048 05 


£ EEG 信号 减 去 恢复 后 的 信号 


025 03 035 04 £0.45 0.£, 


时 间 


0.15 0.2 


图 10-9 干扰 噪声 的 自 适应 过 滤器 消除 


你 也 许 会 奇怪 误差 为 什么 不 变 为 0。 这 是 因为 LMS 算法 是 一 个 近似 的 最 速 下 降 法 ; E 
使 用 梯度 的 估计 和 值 而 不 是 真正 的 梯度 值 来 更 新 网 络 权 值 。 梯 度 的 估计 值 是 有 噪声 的 梯度 值 。 
这 使 得 即使 均 方 误差 达到 最 小 时 ， 权 值 仍 会 继续 作 小 小 的 改变 。 从 图 10-8 中 可 看 到 此 效 


应 。 


A 试验 使 用 此 自 适 应 噪声 消除 滤波 器 请 用 Neural Network Design Demonstration 
=“ Adaptive Noise Cancellation(nndl0nec)。 一 个 更 复杂 的 噪声 源 和 实际 的 EEG 数据 
用 在 Electroencephalogram Noise Cancellation (nndl0eeg) 的 演示 中 。 





2. 回声 消除 

自 适 应 噪声 消除 的 另 一 个 更 重要 的 实际 应 用 是 问 声 消除 。 在 “混合 "设备 中 阻抗 的 不 匹配 
会 在 长 途 电 话 线 和 用 户 的 本 地 线 之 间 形 成 接头 ， 这 使 得 长 途 电 话 线 上 的 回声 很 普 壳 。 在 打 国 
际 电话 时 你 可 能 就 感觉 过 这 类 效应 。 

图 10- 10 说 明了 如 何 用 一 个 自 适应 曲 声 消除 滤波 器 来 减少 这 些 回声 [ WiWi85]。 在 长 途 
线 的 末端 ， 到 来 的 信号 被 送 到 一 个 含有 自 适 应 滤波 器 的 混合 设备 。 滤 波 器 的 目标 输出 是 混合 
设备 的 输出 ， 因 而 滤波 器 将 消除 混合 输出 中 与 输入 信和 号 相关 的 那 部 分 信号 ， 即 回声 。 
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图 10-10 回声 消除 系统 
10.3 小 结 
ADALINE 
a = purelin(Wp+b) 
BARE 
F(x) = E| e?) = El (t 一 a)*] = El (t — x! z)7] 
F(x) = c - 2x’h + x’ Rx 
c= E[t?], h= Eltz] H Re Elz’) 
惟一 的 最 小 值 若 存在 ， 则 为 x = 及 - h。 这 里 =) "Ie =? 
LMS 算法 
Wk +1) = Wk) + 2ae(k)p’ (k) 
bk +1) = b(k) + 2ae(k) 
UBT BT FR 
x* = Rh 
稳 点 学 习 速 度 


0 < a < WAnar (Amar 是 及 的 最 大 特征 值 ) 
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抽 头 延迟 线 
xbe | 。| pb=yb 
pk) = W(k- 1) 
pk) = WK-R+1) 
自 适 滤波 器 ADALINE 
输入 ADALINE 
yk) 
alk) = purelin(Wp(k) + b) 
alk) = purelin(Wp + b) = 2, wi; 96k - i+1) +6 
10.4 例题 
P10.1 考虑 图 10-11 中 的 ADALINE Ra o 
假定 
Wy, = 2, Wy. =-1, wi = 3 
且 输 入 序列 为 


{y(k)} = {+++,0,0,0,5, - 4,0,0,0,.! 
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输入 ADALINE 


yk) 





a(k) = purelin(Wp(k) +b) 
图 10-11 ADALINE 滤波 器 


其 中 y(0) =5，y(1) = -4， 等 等 。 
(i) k=O 以 前 滤波 只 的 输出 是 什么 ? 
(ii) 从 k=0 到 =5， 滤 波 器 的 输出 是 什么 ? 
(iii) y(0) 对 输出 的 影响 有 多 长 时 间 ? 
解 
(i) 在 k=0 以 前 输入 了 3 个 0， 因 而 输出 为 0。 
(ii) 在 上 =0 时 ， 数 字 “S”" 被 输入 滤波 器 ， 它 将 被 乘 以 vi |， 其 值 为 2， 因 而 a(0) = 
10。 这 可 以 通过 矩阵 操作 得 到 
y(0) 5 
a(0) = Wp(0) = [wy wia wi3J| yC- 1) O | = 10 
y(— 2) 0 


= {2 -1 3] 








类 似 地 ， 可 以 计算 下 一 个 输出 为 


-4 
a(1) = Wp(1) = [2 = | 5 | = — 13 
0 


0 
a(2) = Wp(2) = [2 =| |< - 19 
5 


0 
a (3) = Wp(3) = | 2 — | | 0 | = = 12 


0 
0 


其 余 的 输出 将 为 0。 
(iii) y(0) 的 影响 从 天 = 0 持续 到 =2， 因 此 它 将 影响 3 个 时 间 区 间 。 这 对 应 于 这 个 渡 


波 亏 的 脉冲 啊 应 时 间 长 度 。 
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P10.2 假定 要 设计 一 个 ADALINE MARR aA BAAS. cle AA FSR, 

AIL: pl=[1 1]7 且 mm=[-1 -1]’ 

ZANT: p,=[2 2]" 

(i) 能 否 设计 一 个 ADALINE 网 络 来 作 这 样 一 个 区 分 ? 

(ii) 知 对 (D 题 的 回答 为 “是 "， 那 么 什么 权 值 和 侦 差 集合 可 被 使 用 ” 
再 考虑 下 面 不 同 的 类 别 : 

EAM: p= 1] 且 m=[l -1 

AAV: p,=[1 0]" 

(iii) 能 否 设计 一 个 ADALINE 网 络 来 作 这 样 一 个 区 分 ? 

(iv) 若 对 (ii) 题 的 回答 为 “是 ”， 则 可 以 使 用 什么 权 值 和 偏 置 值 集合 ? 
解 

(i) 输入 向 量 画 在 图 10-12 中 。 





图 10-12 ”例题 P10.2 (i) 的 输入 向 量 
图 中 的 直线 是 成 功 区 分 这 两 个 类 别 的 判定 边界 。 由 于 它们 是 线性 可 分 的 ， 因 而 ADA- 
LINE 可 以 完成 此 任务 。 
(ii) 判定 边界 经 过 点 (3，0) 和 (0，3)。 这 两 点 就 是 交点 - b/w, M- b/w,,. 因此 ， 
下 面 的 解 可 满足 要 求 : 
6=3,w,,=-1,w,,=-1 
注意 , 若 ADALINE 的 输出 为 正 或 零 ， 则 输入 向 量 为 类 别 工 的 ; SHO AR, WHAT 
量 为 类 另 开 的 。 这 个 解 也 提供 误差 ， 因 为 判定 边界 分 开 p, 和 p, 之 间 的 线 。 
(iii) 被 区 分 的 输入 向 量 如 图 10-13 中 所 示 。 图 中 的 向 量 不 是 线性 可 分 的 ， 因 此 ADA- 
LINE 网 络 不 能 对 它们 进行 区 分 。 
(iv) 如 (过 ) 题 中 所 述 ，ADALINE 不 能 完成 任务 ， 因 此 没有 满足 要 求 的 权 值 和 偏 置 值 集合 。 
P10.3 假定 有 如 下 的 输入 /目标 输出 对 : 


[i 


这 些 模 式 以 相等 的 概率 产生 ， 它 们 可 用 来 训练 一 个 无 偏 置 值 的 ADALINE N. HITR 
差 的 性 能 曲面 大 体 是 什么 ? 
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图 10-13 ”例题 P10.2(iii) 的 输入 向 量 


解 l 
首先 我 们 需要 计算 二 次 函数 的 各 项 。 由 式 (10.11)， 人 性 能 指数 函数 为 
F(x) = c - 2x’h+ x’ Rx 

因此 需要 计算 c, hM R, 

每 个 输入 出 现 的 概率 为 0.5， 因 此 每 个 目标 输出 的 概率 也 为 0.5。 于 是 ， 目 标 输出 的 平 
方 的 期 望 值 为 

c = E[t?] = (1)*(0.5) + (~ 1)°(0.5) = 1 

类 似 地 ， 输 入 和 目标 输出 之 间 的 相互 关系 为 
] 1 0 
1 + (0.5)(- Dl | "H 
最 后 ， 输 入 相关 和 矩阵 RR 为 

R= 五 [zz7] = ppi (0.5) + pp (0.5) 


ade -lo | 





h = E(tz) = (0.5)(1)] 





_ os|| | ir 


因此 ， 均 方 误差 的 性 能 指数 函数 为 
F(x) = c - 2x’h + x’ Rx 


+ [wi wall 人 


0 1 wi, 





0 
1-2, w,, wall" 


= 1-2w,,+ wi + wi,2 
F(x) 的 赫 森 矩阵 等 于 2R， 其 两 个 特征 值 均 为 2。 因此 ， 人 性 能 曲面 的 轮廓 线 将 是 圆 。 为 
了 找到 轮廓 线 的 中 心 ( 极 小 点 ) ， 需 要 解 方程 10.18): 


HH 


因此 ， 极 小 点 在 w; ;=0，uwil ;= 1。 结 果 的 均 方 误差 性 能 曲面 如 图 10-14 Pra. 10-28 
P10.4 再 次 考虑 例题 P10.3 中 系统 。 使 用 LMS 算法 对 网 络 进行 训练 ， 初 始 值 没 为 0， 
学 习 速 度 设 为 = 0.2$。 在 训练 中 每 个 参考 模式 只 使 用 一 次 。 在 每 步 中 画 出 判定 边 异 。 
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10-14 例题 P10.3 中 F(x) HS Re 


i 
假定 首先 输入 p 。 网 络 输出 、 误 差 和 新 的 权 值 计算 如 下 : 


a(0) = purelin| [0 of) = 0 


e(0) = 4(0) - a(0) = 1-021 


Nie 
_ a | 


W(1) = W(0) + 2ae(0)p(0)? = [0 0] +2(4) (01 1] = [4 
”与 这 些 权 值 关联 的 判定 边界 如 图 10-15 所 示 。 下 面 输入 第 二 个 输入 向 量 : 


all) = purelin{ [4 Htt- 0 


e(1) = :1(1)-~-a(l)--1-0=-1]1 
T l 1 l 
W(2) = W(1) + 2ae(1)p(1) = pi Sl 2{ 4] (- 1)[1 -= 1 | 一 [0 ] | 


与 这 些 权 值 相 关联 的 判定 边界 如 图 10-16 所 示 。 这 个 边界 表明 真正 的 约定 。 它 正好 处 于 
输入 向 量 的 中 间 。 可 以 验证 ， 当 输入 每 一 个 输入 向 量 ， 网 络 将 产生 正确 的 目标 输出 。( 若 交 
换 与 两 个 输入 向 量 相关 联 的 目标 输出 ， 什 么 权 值 集合 是 最 优 的 ?) 





图 10-15 图 10-16 


P10.5 考虑 例题 P10.3 和 P10.4 中 系统 的 收敛 性 。LMS 算法 的 最 大 稳 态 学 习 速 度 是 多 少 ? 


解 
LMS 的 收敛 性 由 学 习 速 度 a 所 决定 ， 它 不 应 超过 及 的 最 大 特征 值 的 倒数 。 我 们 可 用 
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MATAB 找到 这 些 特 征 值 来 确定 此 速度 限制 。 
lV, D | = elg (R) 


V = 
1 0 
O 1 
D = 
1 0 
0 1 


矩阵 DD 的 对 角 线 元 素 给 出 了 特征 值 1 和 1， 矩阵 vV 的 列 为 特征 向 量 。 顺 便 注 意 ， 特 征 向 
量 的 方向 与 图 10-14 中 所 示 的 相同 。 

最 大 特征 值 为 Au =1， 它 设 定 了 学 习 速 度 的 上 限 ， 

a < lna = 1/1 = 1 

前 一 例题 中 建议 的 学 习 速 度 为 0.25， 你 (也 许 ) 可 发 以 发 现 LMS 算法 收 剑 得 很 快 。 当 学 
习 速 度 为 1.0 甚至 更 大 时 会 发 生 什 么 情况 呢 ? 

P10.6 SFE 10-17 中 的 自 适应 ADALINE 目 适 应 滤波 器 。 这 个 滤波 器 的 目的 是 从 前 两 
个 值 中 预测 输入 信和 号 的 下 一 个 值 。 假 定 输入 信和 号 是 一 个 稳 态 随机 过 程 ， 其 目 相关 函数 为 : 

C,(n) = Ely(k)y(k +n)! 
CO = 3, CU Sse ls €,(2) =-1 

(i) 画 出 性 能 指数 ( 均 方 误差 ) 的 轮廓 线 图 。 

(ii) LMS 算法 的 最 大 稳 态 学 习 速 度 (a) 是 多 少 ? 

(iii) 假定 a 的 值 很 小 。 从 初始 值 W(0) = [0.75 0j]? Fi, BH LMS 算法 中 权 值 的 变 
化 路 径 图 ， 解 释 画 出 此 路 径 的 过 程 。 





a(k) = w, yk -1) + Ww, 2 Wk - 2) 


图 10-17 “ 自 适 应 预测 名 


解 
(i) 首先 需要 求解 性 能 指数 以 及 赫 森 矩阵 的 特征 值 和 特征 向 量 。 注 意 到 输入 向 量 为 
y(k = 1) 
z(k) = p(k) = be 9) | 


考虑 性 能 指数 。 由 (10.12) 式 得 
F(x) = c - 2x'’h + x? Rx 
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10-31 


10-32 


y(k - lyk - g 


y (k - 2) 
3 -1 
-1 3 
C, (1) n 
C,(2) | L-1 


| staal 


=] 
2 6 


= A - 120 +32 = (A-8)(A-4) 
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性 能 指数 中 的 常量 计算 如 下 : : 
c= Elt?(k)] = Ely*(k)] = C,(0) =3 
2 
R = E[zz"] = l peen 
y(k - 1)y(k - 2) 
C,(0) €,(1) 
ea) €,(0) | ~ 
i o | x(k) y(k - 1) E 
Ee RLAR, s aot D 7 
最 优 的 权 值 为 
serine g E 
X = Rh = 
-1 3 = 了 
tk PRE EDA 
V °F (x) = A = 2R = | ' 
现在 可 求 得 特征 值 ; 
b=) -2 
A-XI = | | 
-2 627 
于 是 
Ay = 4,54 = 8 
用 
[A -Aliv = 0 


求 特征 向 量 对 A, = 4, 


对 A,=8, 
| s2 =p 
=% a2 
因此 ，F(x) 的 轮廓 线 将 是 椭圆， 每 个 椭圆 的 长 轴 
沿 着 第 一 个 特征 癌 量 的 方 喇 ， 因 为 第 一 个 特征 值 的 值 
最 小 。 椭 图 的 中 心 为 x* ， 如 图 10-18 所 示 。 
可 以 写 一 个 MATLABM M-file S/F F(x) 
轮廓 线 图 来 检验 此 绪 果 。 
(ii) 最 大 稳 态 学 习 速 度 是 R 的 最 大 特征 值 的 倒 
数 ， 也 是 赫 森 和 矩阵 VY “F(x) =A 的 最 大 特征 值 的 倒数 的 
两 倍 : 


|v: = 0, V> 


a < PAE R = 2/8 = 0.25 
(iii) LMS 算法 接近 于 最 速 下 降 法 ， 因 此 ， 对 小 的 
学 习 速 度 ， 轨 迹 线 将 与 轮廓 线 垂 直 ， 如 图 10-19 Pra. 
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图 10-18 例题 P10.6 中 的 误差 轮廓 线 
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图 10-19 LMS 权 值 的 轨迹 


P10.7 一 个 飞机 中 的 飞行 员 正 通过 飞机 座舱 中 的 麦克 风 讲 话 。 由 于 飞行 员 的 话 首 信号 
被 到 达 麦 克 风 的 飞机 发 动机 噪声 所 干扰 ， 控 制 塔 内 的 空中 交通 控制 员 不 能 接收 到 正确 的 话 
音 。 你 能 设计 一 个 自 适应 的 ADALINE 滤波 器 ， 从 而 帮助 减 小 控制 塔 收 到 的 信号 的 噪声 吗 ? 
解释 你 的 系统 。 

解 


输入 到 麦克 风 中 的 发 动机 噪声 可 以 通过 图 10-20 中 的 自 适 应 过 滤 系 统 减 小 到 最 低 限 度 。 
通过 座舱 中 的 一 个 麦克 风 ， 发 动机 噪声 的 一 个 样本 被 输入 到 一 个 自 适 应 滤波 厂 中 。 滤 肖 娠 期 
AMM HARM KAA HERRERA ST HS. BRR RE (FS MER). 
CREM REET T HE S PSA UREA EBA BZ REREN K 
PTAKIEEARHSX). REARS A KHAN ESHA KTR, KH 
结果 却 是 送 到 控制 塔 的 清楚 的 话音 信号 。( 参 见 [ WiSt85]j 中 对 类 似 的 噪声 消除 系统 的 讨论 。) 


， ”混杂 的 信号 a 









af- 


自 适应 过 滤 噪 声 ， 
用 于 消除 混杂 的 
信号 






飞机 发 动机 噪声 源 


图 10-20 ”从 飞行 员 的 话音 信号 中 过 滤 发 动机 响声 
P10.8 这 是 与 例题 P4.3 和 P4.5 类 似 的 一 个 分 类 问题 ， 但 是 要 使 用 一 个 ADALINE W 
络 和 LMS 学 习 规 则 而 不 是 感知 机 学 习 规则 。 首 先 描述 问题 。 
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10-34) 这 个 分 类 问题 中 有 4 类 输入 向 量 ,， 分 别 为 : 


so-la] sefe] E] 
aafe- [jm] aefa 


使 用 LMS 学 习 规则 训练 一 个 ADALINE 网 络 ， 以 解决 此 问题 。 假 定 每 种 模式 发 生 的 概 
率 均 为 1/8. 

解 

首 和 匈 画 出 输入 回 量 ， 如 图 10-21 空心 圆 表示 类 1 的 同 量 ， 空 心 方块 表示 类 2 的 向 量 ， 实 
心 圆 表示 类 3 的 向 量 ， 实 心 方 块 表示 类 4 的 向 量 。 





图 10-21 例题 P10.8 中 的 输 和 人 向 基 


我 们 将 使 用 与 例题 P4.3 中 所 使 用 的 相 类 似 的 目标 向 量 ， 但 是 用 目标 输出 - 1 代替 目标 
输出 0。 (感知 机 只 能 输出 0 和 1) 因而， 训练 集合 为 


Cel ced ea 
m=| =) = 
[z ced t= dsl 
= [os ehi] [aeh] 


与 例题 P4.5 PR, RTT T ERD ee A BT AR : 
wo [3 1], vo 


我 们 已 差不多 准备 好 用 LMS 规则 训练 一 个 ADALINE 网 络 了 。 学 习 速 度 设 为 a= 0.04， 
根据 下 标的 顺序 依次 输入 各 个 输入 向 量 。 第 一 次 迭代 为 


10-35) 
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01T1 11， T2 
Tel eti tet 
e0) = (0) - (0) = | 71 | | "i | 
si 2 -3 
W(1) = W(0) + 2ae(0)p (0) 


l 7 20 w| jel 0.76 | 
if 11] “3 “|_0.24 0.76 





a(0) = purelin(W(0)p(0) + b(0)) = purelin| 1 


1 _ 3 0.76 
b(1) = b(0) + 2ae(0) = 加 + 2(0.04)| -> F oe | 





第 二 次 迭代 为 
a(1) = ai + b(1)) 
all oga wa tz! + logs)" Laon. 
= purelin = 
0.24 2.04 
-1 1.04 2.04 
one [| -上 
W(2) = W(1) + 2ae(1)p’ (1) 
0.76 -0.24 0.5968 — 0.5664 
= | + 2(0. 04)| 7 2 =| [1 2] = | | 
-0.24 0.76 3.04 — 0.4832 0.2736 10-36 
0.76 - 2.04 0.5958 
b(2) = b(1) + 2ae(1) = [07] + 2(0.04)| 720 | = I 


若 继续 下 去 直到 权 值 收 仿 ， 则 可 以 得 到 
WE rey nt (æ) - [0:01] 
~ | 0.1667 -0.6667 1” ~ L0.1667 


得 到 的 判定 边界 如 图 10-22 所 示 。 将 此 结果 与 例题 P4.5 中 由 感知 机 学 习 规 则 得 到 的 最 
终 判 定 边 界 ( 图 4-25) 相 比较 。 当 所 有 的 模式 被 正确 分 类 时 ， 感 知 机 规则 便 停 止 了 训练 。 


LMS 算法 使 判定 边界 尽 可 能 远离 第 分 类 的 模 陈 。 





图 10-22 例题 P10.8 的 最 终 判 定 边界 
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P10.9 重 做 在 Widrow 和 Hoff 在 1960 年 的 经 典 论文 中 的 模式 识别 问题 [WiHo60]。 他 们 
想 设计 一 个 能 将 图 10-23 中 的 6 个 模式 分 类 的 识别 系统 。 


= & EF: 


- FPEF 
=> T G F 
日 标 60 0 -60 
10-37 图 10-23 ”模式 和 它们 的 分 类 目标 


这 些 模式 表示 字母 T，G 和 下 ， 上 面 一 排 是 它们 的 原始 形式 ， 下 面 一 排 则 是 将 它们 移动 
后 的 形式 。 这 些 字母 的 分 类 目标 分 别 为 60，0 和 - 60。(Widrow 和 Hoff 使 用 60，0 和 - 60 
的 原因 是 为 了 较 好 地 在 他 们 使 用 的 仪器 表面 显示 他 们 的 网 络 输出 结果 。) 目 标 是 训练 网 络 ， 使 
得 它 将 6 个 模式 划分 到 相应 的 下 T，G 和 下 组 中 。 


解 
模式 图 中 对 黑色 的 方块 赋值 + 1， 白 色 的 方块 赋值 - 1。 首 先 我 们 将 每 个 字母 转换 为 一 个 


16 元 素 的 向 量 。 转 换 时 从 左上 角 开 始 ， 先 转换 左边 第 1 列 ， 接 着 转换 第 2 列 ， 等 等 。 例 如 ， 
对 应 于 未 移动 的 字母 T， 其 相应 的 向 量 为 ; 
p=[l -1 -1 -1 221211 -1 -1 -1 -1 -1 -1 al 
对 6 个 字母 中 的 每 一 个 将 产生 这 样 的 一 个 输入 问 量 。 
将 使 用 的 ADALINE 网 络 如 图 10-24。 





a = purelin(Wp+b) 


图 10-24 ”上 和 目 适 应 模式 分 类 全 


(Widrow 和 Hoff 构造 了 实现 这 个 ADALINE WALA. FEET AT. 它 “ 像 一 个 午餐 桶 屠 


AR”) 

现在 将 6 个 输入 向 量 以 随机 的 顺序 输入 到 网 络 中 ， 在 每 一 次 输入 后 用 LMS 算法 调整 网 
络 的 权 值 ， 学 习 速 度 为 = 0.03。 调 整 权 值 后 ， 再 将 6 个 输入 向 量 到 输入 到 网 络 中 ， 并 产生 
它们 的 输出 结果 和 相应 的 误差 。 用 误差 的 平方 和 来 检测 网 络 的 质量 。 

图 10-25 说 明了 网 络 的 收敛 情况 。 总 共 输 入 约 60 个 输入 向 量 ， 即 每 个 可 能 的 输入 问 量 


10-38' 大约 输入 10 次。 
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图 10-25 中 的 结果 与 Widrow 和 Hoff 在 35 年 前 得 到 的 和 发 表 的 结果 很 相似 。Widrow 和 
Hoff 做 了 很 好 的 科学 工作 ， 甚 至 几 十 所 后 他 们 的 工作 都 是 可 重复 的 (但 不 必要 有 一 个 千 餐 桶 


de 
7 误差 收敛 
2.6 
2 
= 1.5 
心 
am 
0. 
0 10 20 30 40 50 60 70 a 的 100 
时 间 


图 10-25 ”学 习 速 度 为 0.03 KRÆ oe HR 


试验 这 个 字母 识别 问题 可 以 使 用 Neural Network Design Demonstration Linear 
Pattern Classification(nnd101c) 。 注 意 网 络 对 输入 模式 中 骂 声 的 艇 感性 。 





10.5 结束 语 


在 本 章 中 ， 我 们 介绍 了 ADALINE 神经 网 络 和 LMS 学 习 规 则 。ADALINE 网 络 与 第 4 
音 中 的 感知 器 网 络 很 相似 ， 两 者 具有 相同 的 基本 限制 : 它们 只 能 对 线性 可 分 的 模 或 进行 分 
类 。 尽 管 对 于 这 个 限制 ， 事 实 上 LMS 算法 仍 比 感知 机 学 习 规 则 更 有 效 。 因 为 它 使 均 方 庄 差 
最 小 化 ， 所 以 算法 能 产生 比 感 知 机 学 习 规 则 受 噪 声 影 啊 小 的 判定 边 乔 。 

ADALINE 网 络 和 LMS 算法 在 实践 中 均 有 许多 应 用 。 尽 管 它们 是 在 20 世纪 50 FRA 
首次 被 提出 来 的 ， 它 们 仍 广泛 地 用 于 自 适 应 滤波 的 应 用 中 。 当 前 ， 在 许多 长 泛 电 活 线 上 安装 
的 回声 消除 系统 就 使 用 了 LMS 算法 。 

除了 作为 许多 自 适 应 滤波 应 用 的 实际 解决 办 法 以 外 ，LMS 算法 也 因为 它 是 反 向 传播 
(BP) 算 法 的 前 驱 而 显得 很 重要 ，BP 算法 将 在 第 11 章 和 12 章 中 讨论 。 像 LMS 算法 一 样 ， 
反 向 传扬 算法 也 是 使 均 方 误差 最 小 化 的 近似 的 最 速 下 降 算 法 。 两 个 算法 惟一 的 区 别 在 于 导数 
的 计算 方式 。BP 算法 是 LMS 算法 的 推广 ， 可 以 用 于 多 层 神经 网 络 。 这 些 更 复杂 的 网 络 不 限 
于 解 线性 可 分 问题 。 它 们 能 解决 任意 的 分 类 问题 。 
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vention Record, NewYork: IRE Part 4, pp. 90 - 104. 
这 篇 重要 文章 描述 一 个 目 适 应 的 类 感知 机 的 网 络 ， 它 能 快速 准确 地 学 习 。 作 者 假 
定 系统 有 和 输入， 每 个 输入 有 一 个 期 望 的 输出 类 别 ， 且 系统 能 计算 实际 输出 和 期 望 输出 
之 间 的 误差 。 为 了 使 均 方 误差 最 小 化 ， 网 络 使 用 一 个 最 速 下 降 法 来 调整 权 值 。( 最 小 均 
方 误差 或 LMS 算法 )。 这 篇 文章 在 [ AnRo89|] 中 被 重印 。 
-WiSt85] B. Widrow and S. D. Stearns, Adaptive Signal Processing, Englewood Cliffs, NJ: 
Prentice ~ Hall, 1985. 
这 本 内 容 丰 富 型 的 书 叙述 了 自 适 应 信号 处 理 方 面 的 理论 和 应 用 。 作 者 在 书 中 概述 
了 所 需要 的 数学 背景 知识 ， 给 出 了 他 们 的 详细 的 自 适 应 算法 ， 并 计 论 了 许多 实际 应 用 。 
WiWi88] B. Widrow and R. Winter, “Neural nets for adaptive filtering and adaptive pattern 
recognition, ” IEEE Computer Magazine, March 1988, pp. 25-39. 
这 篇 文章 特别 可 读 ， 它 总 结 了 自 适 应 多 层 神 经 网 络 的 应 用 。 网 络 被 用 于 系统 建 


1041 模 、 统 计 预 测 、 回 声 消 除 、 反 回 建 模 和 模式 识别 等 。 
习题 
E10.1 图 10-26 中 所 示 为 一 个 自 适应 滤波 器 ADALINE。 假 设 网 络 的 权 值 为 : 
Wi, = 1,0). = 一 42013 = 2 
Mei as HAA 
{y(k)| = i-**,0,0,0,1,1,2,0,0,°°°} 
输入 ADALINE 
y(k) 





alk) = purelin(Wp(k) + b) 


图 10-26 习题 E10.1 的 自 适 应 滤波 胡 ADALINE 


E10.2 图 10-27 中 给 出 了 两 类 模式 。 
(i) 用 LMS 算法 训练 一 个 ADALINE 网 络 ， 使 之 能 区 分 类 IMA 工 中 的 模式 
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( 即 要 求 网 络 能 区 水 平 线 和 垂直 线 ) 。 
(ii) 你 能 解释 为 什么 ADALINE 可 能 难于 解决 此 问题 吗 ? 


“we £4 


Class I Class I 
图 10-27 “习题 E10.2 的 模式 分 类 问题 10-42 
E10.3 假定 有 下 面 的 参 模式 和 它们 的 目标 输出 ，: 


-| 


在 例题 P10.3 中 假定 输入 到 ADALINE 的 这 些 向 量 以 等 概率 产生 。 现 在 假定 辣 
Bp, 产生 的 概率 为 0.75， 向 量 p, 产生 的 概率 0.25。 概 率 的 改变 是 否 会 改变 均 
方 误差 的 曲面 ? 若是 ， 现 在 曲面 的 形状 如 何 ? 最 大 稳 态 学 习 速 度 是 多 少 ? 

E10.4 本 习题 中 ,例题 P10.3 中 的 参考 模式 p, 被 修改 为 


-和 -和 


(i) 假定 两 种 模式 以 等 概率 产生 。 求 均 方 误差 并 描绘 出 其 轮廓 线 图 。 
(ii) 求 最 大 稳 态 学 习 速 度 。 
(iii) 写 一 个 用 LMS 算法 求解 此 问题 的 MATLAB M-file。 对 一 个 稳 态 学 习 速 度 
让 算法 执行 40 步 。 用 零 向 量 作为 初始 值 。 画 出 轮廓 线 图 上 的 变化 轨迹 。 
(iv) 在 将 两 个 参数 的 初始 值 均 设 为 1 后 ， 让 算法 执行 40 步 。 画 出 最 终 的 判定 边 
界 。 
(v) 比较 (六 ) 和 (iv) 的 最 终 参 数 。 解 释 比 较 的 结果 。 
E10.5 再 次 使 用 例题 P10.3 中 的 参考 模式 和 目标 和 输出， 假定 模式 以 等 岂 率 产 生 。 这 里 
我 们 要 训练 一 个 有 偏 置 值 ADALINE 网 络 。 求 三 个 参数 : wijs wif bo 
(i) 求 均 方 误差 和 最 大 稳 态 学 习 速 度 。 
(ii) 写 一 个 用 LMS 算法 求解 此 问题 的 MATLAB Mo-file 文件 。 对 一 个 稳 态 学 习 
速度 让 算法 执行 40 步 。 用 零 向 量 作为 初始 值 。 画 出 最 终 的 判定 边 窜 。 
(iii) 将 所 有 参数 的 初始 值 均 设 为 !1， 让 算法 执行 40 步 。 画 出 最 终 的 判定 边界 。 
(iv) 比较 (六 ) 和 (iv) 中 得 到 的 最 终 参数 值 和 判定 边界 。 解 释 比 较 的 结果 。 
E10.6 考虑 图 10-28 中 的 自 适应 预测 器 。 
假定 y(£) 是 一 个 稳 态 过 程 ， 其 自 相 关 函 数 为 . 
C,(n) = Ely(k)(y(k + n))] 
(i) 写 出 包含 C,(n) 项 的 均 方 误差 的 表达 式 。 
(ii) 当 y(k) = sin( 至) 时 ， 写 出 均 方 误差 的 表达 式 。 


(iti) KDR% 的 再 森 矩 阵 的 特征 值 和 特征 向 量 。 确 定 极 小 点 并 画 出 大 致 的 毗 


RRE. 
(iv) 求 LMS 算 法 的 最 大 稳 态 学 习 速 度 。 
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alk) = w,, Wk -1) + wi2y(k-2) 


图 10-28 ”习题 FE10.6 的 自 适应 预测 器 


(v) 用 一 个 稳 学 习 速 度 ， 手 工 计算 LMS 算法 的 三 步 执行 结果 。 用 零 向 量 作为 
切 始 值 。 
(vi) 写 一 个 用 LMS 算法 求解 此 问题 的 MATLAB M-file 文件 。 对 一 个 稳 态 学 习 
速度 ， 让 算法 执行 40 步 。 画 出 轮廓 线 图 上 权 值 的 轨迹 。 用 零 癌 量 作为 初 
始 值 。 验 证 算法 收敛 于 最 优点 。 
(vii》 以 试验 方式 验证 当 学 习 速 度 大 于 (iv) 中 求 得 的 学 习 速 度 时 ， 算 法 不 稳定 。 
E10.7 再 次 解 例题 P10.9， 不 过 用 数字 “1”,，“2” 和 “4” 代 替 字 母 “T”,，“G” 和 “F”。 对 每 个 参 . 
考 模式 和 品 声 模式 ， 测 试 经 过 训练 后 的 网 络 。 讨论 网 络 的 敏感 性 。( 使 用 Neural 
10-44 Network Design Demonstration Linear Pattem Classification (nndi01c) . ) 
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11.1 目的 


在 第 8 章 中 我 们 开始 性 能 学 习 的 讨论 ， 在 第 10 章 中 给 出 了 LMS 算法 ， 本 章 中 继续 对 性 
能 学 习 的 讨论 ， 并 给 出 一 个 更 一 般 的 LMS 算法 ， 称 为 反 向 传播 法 ， 它 可 用 来 名 练 多 层 网 络 .: 
根据 LMS 学 习 法 则 ， 反 疝 传 播 法 也 是 最 速 下 降 算 法 的 近似 ， 其 中 性 能 指数 是 均 方 误差 . 
LMS 算法 和 反 回 传播 法 的 区 别 在 于 它们 对 导数 的 计算 方式 上 。 对 单 层 的 线性 网 络 ， 误 差 是 
网 络 权 信 的 显 式 线性 男 数 ， 其 相对 于 权 值 的 导数 较为 容易 求 得 。 在 具有 非 线性 传输 函数 的 多 
屋 网 络 中 ， 网 络 权 值 和 误差 的 关系 更 为 复杂 。 为 了 计算 导数 ， 需 要 使 用 微 积分 的 链 法 则 。 囊 
实 上 ， 本 章 的 一 大 部 分 是 在 讲述 如 何 使 用 链 法 则 上 。 


11.2 HEMP 


Frank Rosenblatt 的 感知 机 学 习 规 则 和 Bernard Widrow 和 Marcian Hoff 的 LMS 算法 是 设 
计 用 来 训练 单 层 的 类 似 感知 器 的 网 络 的 。 如 前 面 几 章 所 述 ， 这 些 单 层 网 络 的 缺点 是 只 能 解 线 
性 可 分 的 分 类 问题 。Rosenblatt 和 Widrow 均 意 识 到 这 些 限制 并 且 都 提出 了 克服 此 类 问题 的 
方法 : 多 层 网 络 。 但 他 们 未 将 这 类 算法 推广 到 用 来 训练 功能 更 强 的 网 络 。 

Paul Werboss 在 他 1974 年 的 论文 中 第 一 次 描述 了 训练 多 层 神 经 网 络 的 一 个 算法 
._ Werbo74」 ， 论 文中 的 算法 是 在 一 般 网 络 的 情况 中 描述 的 ， 而 将 神经 网 络 作为 一 个 特例 。 论 
文 没有 在 神经 网 络 研 究 圈 子 内 传播 。 下 到 20 世纪 80 年 代 中 期 ， 反 向 传播 算法 才 重 新 被 发 现 
并 广泛 地 宣扬 ， 它 是 被 David Rumelhart, Geoffrey Hinton 和 Ronald Williaras | RuHi86 |, 
David Parker, Park85], LAR Yann Le Cun[ LeCu85] 分 别 独立 地 重新 发 现 的 。 这 个 算法 因 被 
包括 在 《并 行 分 布 式 处 理 》( Parallel Distributed Processing ) [RuMec86 | 一 书 中 而 得 到 普及 。 这 
本 书 介 绍 了 心理 学 家 David Rumelhart 和 James McClelland 领导 的 并 行 分 布 处 晶 小 组 所 做 的 
研究 工作 。 这 本 书 的 出 版 引发 了 神经 网 络 的 研究 热潮 。 当 前 ， 用 反 向 传播 算法 训练 的 多 层 感 
知 机 是 应 用 最 广 的 神经 网 络 。 

本 章 中 ， 首 先 让 我 们 来 看 看 多 层 网 络 的 能 力 ， 然 后 叙述 反 回 传播 算法 。 


11.2.1 多 层 感 知 机 


首先 我 们 介绍 第 2 章 中 所 用 的 多 层 网 络 的 符号 。 为 便于 参考 ， 我 们 在 图 11-1 中 重新 画 
出 一 个 三 层 感知 机 的 图 。 注 意 三 个 感知 机 网 络 只 是 简单 地 被 连接 在 一 起 。 第 一 个 网 络 的 输出 
是 第 二 个 网 络 的 输入 ， 第 二 个 网 络 的 输出 是 第 三 个 网 络 输入 。 每 一 层 可 以 有 不 同 数目 的 神经 
元 ， 甚 至 传输 函数 也 可 以 不 同 。 在 第 2 章 中 我 们 用 上 标 来 表示 层 号 。 因 而 ， 第 一 层 的 权 值 矩 
阵 写 作 Wi， 第 二 层 的 权 值 矩阵 写作 W., 

为 了 表示 多 层 网 络 的 结构 ， 有 时 我 们 使 用 下 面 的 速记 符号 ， 其 中 在 输入 的 数目 后 面 跟 春 
每 一 层 的 神经 元 数目 : 


ww aibbt.com DODODOO0OD0D0 


198 FP LE P] 4 TE #4 
(11-2. Rebas 8 (11.1) 


输入 第 一 层 第 二 层 第 三 层 
CONC nn、 (CS (CS 


ne AEF mee ve re EEF 
A -aM WP 

"OE TE} off As > 
A a SAE 

Eoo e a i TE — EES 


b';' bz ? 


l l Š 







Ne Noe 
a' =f! (W'p+b!) a? = f 2(W2a! +b?) a? = f 3? (W3a2+ b?) 
a3 = f 3 (Wf 2(W2f | (W'p +b!) +b2)+ b3) 


图 11-1 三 层 网 络 


现 来 看 这 些 多 层 感 知 器 网 络 的 能 力 ， 首 先 看 多 层 网 络 在 模式 分 类 中 的 使 用 ， 然 后 讨论 在 
PK RUS U PRIMM H o 

1. 模式 分 类 

要 说 明 多 层 感知 机 用 于 模式 分 类 的 能 力 ， 考 虑 经 典 的 异 或 (XOR) 问 题 。 异 或 的 输 人 / 目 
标 输 出 对 为 


fo = [ole = os = [il n= [of = thee Life =o 


1969 年 Minsky 和 Papert 曾 用 此 间 题 来 说 明 单 层 感知 机 的 局 限 性 ， 
如 图 11-2 所 示 ， 因 为 两 个 类 别 不 是 线性 可 分 的 ， 所 以 一 个 单 层 的 感知 
机 不 能 完成 分 类 任务 。 

然而 一 个 两 层 的 网 络 能 解决 异 或 问题 。 事 实 上 ， 有 许多 种 多 层 网 络 
可 解决 此 问题 。 一 种 办 法 是 在 第 一 层 中 用 两 个 神经 元 来 产生 两 个 判定 边 

113) 界 。 第 一 个 边界 将 p 和 其 他 模式 分 开 ， 第 二 个 边界 则 将 p, 分开。 然后 
第 二 层 网 络 用 一 个 AND 操作 将 两 个 边界 结合 在 一 起 。 对 第 一 层 的 每 个 图 11.2 
神经 元 ， 其 判定 边界 如 图 11-3 所 示 。 

结果 产生 的 两 屋 2 -2 - 1 网络 如 图 11-4。 这 个 网 络 整个 的 判定 边界 如 图 11-$， 阴 影 区 域 
表示 产生 网 络 输出 为 1 的 那些 输入 。 

多 层 网 络 在 模式 分 类 上 的 应 用 可 见 例题 P11.1 和 P11.2。 

2, BRIS 

直到 现在 为 止 ， 在 本 书 中 看 到 的 神经 网 络 的 应 用 主要 是 在 模式 分 类 方面 。 神经 网 络 在 本 
质 上 也 可 被 看 作 是 函数 逼近 器 。 例 如 ， 在 控制 系统 中 ， 目 标 是 要 找到 一 个 合适 的 反馈 晒 数 ， 





ww ai bbt. com DODODODOODODOD 


Zil# KABEH 199 





第 一 层 /神经 元 1 第 一 层 / 神 经 元 2 


图 11-3” 异 或 (XOR) 网 络 的 判定 边界 





图 11-4 ”两 层 异 或 (XOR) 网 络 


它 能 将 测量 到 的 输出 映射 为 控制 输入 。 在 自 适应 滤波 (第 10 EE), 
目标 是 要 找到 一 个 函数 ， 使 得 延迟 的 输入 信和 号 值 被 映射 到 相应 的 输 
出 信号 上。 下 面 的 例子 将 展示 多 层 感 知 机 在 实现 函数 方面 的 灵活 性 。 

考虑 图 11-6 中 的 两 层 的 1 -2 - 1 网络。 此 例 中 ， 第 一 层 的 传输 
函数 是 log- sigmoid PART, SPEAR, RDA, we 


11-4 








_ —} a a 
fi(n) = on H f'(n) =n (11.2) Eai 
假定 这 个 网 络 的 权 值 和 偏 置 值 为 : 
wii = 10, W2 1 = 10, 5} == 10, b3 = 10, wi; = 1, wi. = 1, 6? := 0 
网 络 在 这 些 参 数 下 的 响应 如 图 11-7， 图 中 网 络 输出 a? 为 输入 p PRK, H p 的 取 值 范围 为 


| -2, 215 
注意 网 络 的 响应 包括 两 步 ， 每 一 步 对 第 一 层 中 的 一 个 对 数 -$S 形 神 经 元 的 啊 应 。 通 过 凋 


整 网 络 的 参数 ， 每 一 步 的 曲线 形状 和 位 置 都 可 以 发 生 改 变 ， 如 在 下 面 讨论 中 将 会 匈 到 的 那 
FF o 
每 步 的 曲线 中 心 对 应 网 络 第 一 层 中 的 神经 元 的 净 输 入 为 0: 


b! - 
n} = wlip+bl=0 =» p=- <y - a (11.3) [ais 
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n} = wip + by = 0 => p=- =- Jo 77! (11.4) 


输入 Log-Sigmoid Æ 线性 层 





a! = logsig(W'p+b') a? = purelin(W2a! +b?) 


图 11-6 KFORA AT 


“ty 4 6 1 


P 
图 11-7 Æ 11-7 PRS hg hy 


通过 调整 网 络 的 权 值 可 以 调整 每 一 步 曲 线 的 陡 度 。 
图 11.7 说 明了 参数 改变 对 网 络 响应 的 影响 。 图 中 的 曲线 是 参数 未 作 调整 前 的 网 络 啊 应 。 
其 他 的 曲线 对 应 于 当 一 个 参数 的 取 值 在 下 面 的 范围 时 的 网 络 啊 应 : 


-lew?,<1,-le wi <10<0<20,-l<t<l (11.5) 


“ae, 


图 11-6(a) 说 明 第 一 层 ( 隐 层 ) 的 网 络 偏 置 值 如 何 被 用 来 确定 每 一 步 曲线 的 位 置 。 图 11-8 
(b) 说 明 网 络 权 值 如 何 决定 每 步 曲 线 的 坡度 。 第 二 层 (输出 层 ) 的 网 络 偏 置 值 使 整个 网 络 的 啊 
应 曲线 上 移 或 下 移 ， 如 图 11-8¢d) Btw. 

从 这 个 例子 中 ， 可 以 看 到 多 层 网 络 的 灵活 性 。 看 起 来 ， 只 要 在 隐 层 中 有 足够 数量 的 神经 
元 ， 我 们 可 以 用 这 样 的 网 络 来 逼近 几乎 任何 一 个 函数 。 事 实 上 ， 研 究 已 表明 ， 两 层 网 络 在 其 
隐 层 中 使 用 形 传输 函数 ， 在 输出 层 中 使 用 线性 传输 函数 ， 就 几乎 可 以 以 任意 精度 允 近 任何 
感 兴趣 的 函数 ， 只 要 隐 层 中 有 足够 的 单元 可 用 ( 见 [HoSt89])。 
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试验 这 个 两 层 网 络 的 响应 曲线 请 用 Neural Network Design Demonstration Net- 


TPE 
work Function(nndllnf). | 11-6 | 





3 3 
| 
a} 72 : pas 
i TE 
0 0 
2 1 0 1 2 2 7 0 1 2 
(a) (b) 
3 3 


(c) | (d) 
图 11-8 参数 改变 对 网 络 啊 应 的 影响 


我 们 已 经 有 了 对 多 层 感 知 机 网 络 在 模式 识别 和 函数 逼近 中 的 能 力 一 些 概念 ， 下 一 步 是 
要 设计 一 个 算法 来 训练 这 梓 的 网 络 。 


11.2.2 反 向 传播 算法 


使 用 第 2 章 中 引入 的 多 层 网 络 的 缩写 符号 可 以 简化 对 反 向 传播 算法 (BP 算法 ) 的 讨论 。 
图 11-9 中 是 使 用 缩写 符号 标记 的 三 层 神 经 网 络 。 


输入 第 一 层 第 二 层 第 三 层 





al = f t! (Wip+b!) a? = f 2 (Wa! + b?) a? = f 3 (W3a2 +b?) | 
83 = f3(W3f2(W2f ! (W'p+ b!) + b2) +b) 


图 11-9 ”使 用 缩写 符号 的 三 层 网 络 


如 前 所 述 ， 多 层 网 络 中 某 一 层 的 输出 成 为 下 一 层 的 输入 。 描 述 此 操作 的 等 式 为 : 
amt! = fm+l(Wm+lanr + b™+!),m = 0,1,°°,M - 1 (11.6) 


这 里 ，M 是 网 络 的 层 数 。 第 一 层 的 神经 元 从 外 部 接收 输入 ; 
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9? = p (11.7) 
它 是 等 式 (11.6) 的 起 点 。 最 后 一 层 神 经 元 的 输出 是 网 络 的 输出 : 
a = a” (11.8) 


1. 性 能 指数 
多 层 网 络 的 BP 算法 是 第 10 章 中 LMS 算法 的 推广 。 两 个 算法 均 使 用 相同 的 性 能 指数 : 
均 方 误差 。 算 法 的 输入 是 一 个 网 络 正确 行为 的 样本 集合 : 
iPpti, ip sti, =s {po,to! (11.9) 
这 里 p, 起 网 络 的 输入 ，t, 是 对 应 的 目标 输出 。 每 输入 一 个 样本 ， 便 将 网 络 输 出 与 目标 输出 
相 比较 。 算 法 将 调整 网 络 参 数 以 使 均 方 误差 最 小 化 : 
F(x) = Ele*] = El(t - a)’] (11.10) 
RH, x EMA oa 10 章 所 述 )。 寿 网 络 有 多 个 输出 ， 则 上 式 的 一 般 





形式 为 : 
F(x) = Ele’e = El(t-a)7(t-a)] (11.11) 
qe] LMS 算法 ， 我们 用 F(x) 来 近似 计算 均 方 误差 ; 
F(x) = (th) -aC(k)) T(t(k) - a(k)) = ei(k)e(k) (11.12) 
这 里 ， 均 方 误差 的 期 望 值 被 第 次 迭代 时 的 均 方 误差 所 代替 。 
近似 均 方 误差 的 最 速 下 降 算 法 为 : 
wP +1) = wh(k) -ar (11.13) 
br(k +1) = p(k) - a 2E (11.14) 
这 里 a 是 学 习 速 度 。 
到 此 为 止 ， 整 个 过 程 与 LMS 算法 是 一 样 的 。 下面 将 叙述 比较 难 的 部 分 一 一 偏 导数 的 计 
算 。 
2. 链 法 则 


对 单 层 线 性 网 络 (ADALINE)， 这 些 偏 导 数 可 以 用 式 (10.33) 和 式 (10.34) 方 便 地 求 得 。 
对 多 层 网 络 ， 误 差 不 是 隐 层 中 的 权 值 的 显 式 孙 数 ， 因 此 这 些 偏 导数 并 不 容易 求 得 。 

因为 误差 是 隐 层 中 的 权 值 的 隐 消 数 ， 所 以 下 面 将 用 微 积分 中 的 链 法 则 来 计算 偏 导 数 。 假 
设 有 一 个 函数 f, CENERE n 的 显 式 函数 。 现 在 求 f 关于 第 三 个 变量 w 的 导数 ， 链 法 则 
为 : 


sen oe g S (11.15) 
A, 
f(n) = Hn = 2w ,PW f(n(w)) = e (11.16) 
则 
df(n(w)) _ df(n) ? dn(w ) ~ (e")(2) (11.17) 


dw dn dw 
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下 面 用 此 法 则 来 求 式 (11.13) 和 (11.14) 中 的 偏 导数 ; 
OF oF On; 
Juf, = Inf * wh (11.18) 


a$ ak Ən? 

Jb” T Jn?” aor 
每 个 等 式 中 的 第 二 项 均 可 容易 地 算出 ， 因 为 m 层 的 网 络 输 入 是 那 一 层 中 的 权 值 和 偏 置 值 的 
ERA: 


(11.19) 








nP = Dowager (11.20) 
因此 ， 
Int gy Ont 
awe, = 0 yr, = ] (11.21) 
i FE 
mn _ OF 
P= (11.22) 
(Ê Xt m 层 的 输入 的 第 i 个 元 素 变 化 的 敏感 性 )， 则 式 (11.18) 和 (11.19) 可 简化 为 
F = spar! (11.23) 
aFf 
ab” = Si (11.24) 
现在 可 以 将 近似 最 速 下 降 法 表示 为 
wi Ck +1) = wi (k) = aspan (11.25) 
b™(k 41) = b?(k) - as? (11.26) 
用 和 矩阵 形式 表示 ， 则 为 
W"(k +1) = w7(k) - as™(a™~!)? (11.27) 
b”(k +1) = b”(k) - as” (11.28) 
这 里 
oF 
Ont 
. oF 
sm ae 2E _ | Ang (11.29) 
on™ 
OF 
at 


(注意 这 个 算法 与 式 (10.33) 和 (10.34) 的 LMS 算法 之 间 的 紧密 关系 。) 

3 . 敏感 性 的 反 向 传播 

现在 还 需要 计算 敏感 性 s"， 这 要 求 再 次 使 用 链 法 则 。 正 是 这 个 过 程 给 出 了 反 向 传播 这 
个 词 ， 因 为 它 描 述 了 第 m 层 的 敏感 性 通过 第 m + 1 层 的 敏感 性 来 计算 的 递 推 关系 。 

推出 敏感 性 的 递 推 关 系 需要 使 用 下 面 的 雅 可 比 和 矩阵 : 
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anmt! ane dna 
ant dny Ang 
ane ang! ano 
To Iny ane Aang (11.30) 
dn” Š a 
Ante Anns 9 neat 
dni Iny Ing 
II 下 面 求 这 个 和 矩阵 的 一 个 表达 式 。 考 虑 矩阵 的 ;上 ，7 元 京 : 
sm 
m+] m m +l 
gapi A Aet ar + bi ma 2A 
In; An; red an; (11.31) 
oF (my 
= ‘a of (ny = a mnr) 
dn; 
这 里 af nt) 
n! 
fln) = (11.32) 
In; 
A m HE AT EEFE RA aT E ay | 
on W™+1F" (n”) (11.33) 
on 
这 里 
f" (nt) 0 0 
om m 0 
F"(n") = : a , (11.34) 
0 0 ， f" (ny) 
PRE A LUE ARES HRE EKRA: 
af (aan)? E ne ae) | 
as. Ss ee a = a W = ee 
S Jn” an” an™*! F (n )( ) 3n” +! (11.35) 


= F” (n™) (wt!) Temt+! 


现在 我 们 可 以 看 到 反 向 传播 算法 得 名 的 原因 了 。 敏 感性 从 最 后 一 层 通 过 网 络 锌 反问 传播 


到 第 一 层 : 





SM — gM-1 +... — g — g! 


t 


有 一 二 

— 
i 

f 





(11.36) 


这 里 值得 强调 的 是 ，BP 算法 使 用 的 是 在 LMS 算法 中 用 到 的 相同 的 近似 最 速 下 降 法 。 惧 


一 复杂 的 是 ， 为 了 计算 梯度 ， 需 要 首先 反 向 传播 敏感 性 。 反 向 传播 的 优点 是 我 们 可 以 很 有 效 


地 实现 链 法 则 、 


完成 BP 算法 前 还 有 一 点 事情 要 做 。 我 们 需要 递 推 关 系 式 (11.35) 的 起 始点 s. AER 





后 一 层 得 到 
s 
l ; 3 2a (1; = aj)” ‘ 
OF a(t- a)’ (t-a) j=l a; 
M = = = 一 = i: 11.37) 
Si In! > anv aM 2( t; ai) 5M ( : 


i 


ww ai bbt. com 7 O00000 


Bilt KAER 205 





由 于 va Mal) 
2 7 5 — = jH (nt) (11.38) 
可 以 写 出 
st = 一 2 和) ) (11.39) 
这 可 以 用 和 矩阵 形式 表示 成 | 
s¥ =- 2F"(n")(t - a) (11.40) 
4. 小 结 
下 面 小 结 BP 算法 。 第 一 步 是 通过 网 络 将 输入 向 前 传播 : 
a =p (11.41) 
am+l = getl(wttlanm + b”t!),m = 0,1,°°,M —- 1 (11.42) 
a= a” (11.43) 
下 一 步 是 通过 网 络 将 敏感 性 反 同 传播 : 
sM =- OF! (n™”)(t - a) (11.44) {11-13 
s” = F™(n™) (Wt!) 75™*!, m = M -1,°",2,1 (11.45) 
BE, HAIUM a PRS SOA: 
W"(k +1) = W"(k) - as™(a"-')? (11.46) 
b”(k +1) = b"(k) - as” (11.47) 
11.2.3 例子 


下 面 我 们 选择 一 个 网 络 并 将 BP 算法 用 在 其 上 来 解决 一 个 特定 问题 。 首 先 ， 采 用 本 章 开 
始 时 讨论 的 1-2-1 网络 。 为 方便 起 见 ， 将 此 网 络 重 画 于 图 11-10 中 。 


输入 Log-Sigmoid Æ 线性 层 





a! = logsig(W'p+b') a? = purelin (Wal +b?) 


图 11-10 用 网 络 逼 近 函 数 的 例子 
下 一 步 定 义 此 网 络 要 解决 的 问题 。 假 定 我 们 用 此 网 络 来 远近 上 盟 数 
gp) = 1 +sin( =p), -2gp < 2 


训练 集 可 以 通过 计算 函数 在 几 个 p 值 上 的 函数 值 来 得 到 。 
在 开始 BP 算法 前 ,需要 选择 网 络 权 值 和 偏 置 值 的 初始 值 。 通 常 选择 较 小 的 随机 值 。 下 


一 章 将 讨论 为 什么 要 这 样 做 。 现 在 ， 选 择 的 全 O 


(11.48) 


11-14 
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w'(0) = Wed ,bl(0) = | , W2(0) = [0.09 -0.17],bz(0) = [0.48] 


网 络 对 这 些 初始 值 的 响应 如 图 11-11 Bras, Px ep EYE 9% pea HR 





图 11-11 网 络 对 初始 值 的 响应 


现在 可 以 开始 执行 算法 了 。 对 初始 输入 ， 我 们 选择 p = 1: 


a® = p= l 
第 一 层 的 输出 为 


a = POW +WD = owie (| |) +{ oiis |) = wel osc] 


od 
| Auge pon 
j ] ~ 10.368 


1+ eo 





第 二 层 的 输出 为 
a? = f?(Wa' +b) = uretin| [0 09 -0 TAi 0 | + [0 48] = [0.446] 

j "= | "10.368 ' | 
11-15] 误差 将 为 

e=t-a={1+sin(2p)}- a? = {1+ sin{ 21) }- 0.446 = 1.261 

算法 的 下 一 阶段 是 反 向 传播 敏感 性 值 。 在 开始 反 向 传播 前 ， 需 要 先 求 传输 函数 的 导数 
FDM FCn) HRJ: 

， d l p l l _ 1 

f Cn) = TrA (1 pay - (1 er + a = (1 - aCe) 


d 
对 第 二 层 : 








fn) = A(n) = 1 


下 面 可 以 执行 反 向 传播 了 。 起 始点 在 第 二 层 。 由 式 (11.44): 
s =- 2F(m)(t- a) =- 20 f?(n7)](1.261) = ~ 2/1](1.261) = - 2.522 


第 一 层 的 敏感 性 由 计算 第 二 层 的 敏感 性 反 向 传播 得 到 ， 由 (11.45) 式 : 
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(1 ~ aj) (aq) 0 0.09 
Pode =| peter 
> sal ail 0 (1- ago) il - 0.17 ii 
~ [G - 0.321)(0.321) 0 | 0.09 | P 
-| 0 (1 ~ 0.368)(0.368) JL - 0.17 So 


We | | 
“L o  0.233JL 0.429 | | 0.0997 

算法 的 最 后 阶段 是 更 新 权 值 。 为 简单 起 见 ， 学 习 速 度 设 为 = 0.1。!( 学 习 速 度 的 选择 将 
在 第 12 章 中 作 更 详细 的 讨论 。) 由 式 (11.46) 和 (11.47): 

VD = W(0) -asẹ (al)? = [0.09 -0.17] -0.1[- 2.522][0.321 0.368] 

= [0.171 - 0.0772! 
b?(1) = b7(0) — as? = [0.48] - 0.1L - 2.522] = [0.732] 
“4 i pri 1 - [0:255 

- 0.41 0.0997 - 0.420 
oe | 70:9495 heed 
_0.131 0.0997 」 L-0.140 

这 就 完成 了 BP 算法 的 第 一 次 迭代 。 下 一 步 可 以 选择 男 一 个 输入 p， 执 行 算法 的 第 二 次 
迭代 过 程 。 迭 代 过 程 一 直 进 行 下 去 ， 直 到 网 络 响应 和 目标 晃 数 之 差 达 到 茶 一 可 接受 的 水 平 。 
在 第 12 章 中 将 对 收敛 准则 作 更 详细 的 讨论 。 


试验 在 此 两 层 网 络 上 使 用 BP 著 法 请 用 Neural Network Design Demonstration 
Backpropagation Calculation (mndllbc)。 


W (1) = 一 w! (0) — os! (a 0) 7 = | 


b! (1) = b! (0) = as! = | 





11.2.4 反 向 传播 


本 节 中 将 叙述 与 反 向 传播 法 的 实际 实现 相关 的 一 些 问题 ， 包 括 网 络 结 格 的 选择 、 网 络 收 
敛 性 和 一 般 化 的 问题 。( 第 12 章 中 将 再 次 讨论 实现 问题 ， 讨 论 改 进 算法 的 过 程 。) 

1. 网 络 结构 的 选择 

如 本 章 前 面 所 述 ， 多 层 网 络 可 用 来 逼近 几乎 任 一 个 函数 ， 只 要 在 隐 层 中 有 足够 的 神经 
元 。 然 而 ， 通 常 并 不 能 说 ， 多 少 层 或 多 少 神经 元 就 足以 得 到 足够 的 性 能 。 本 市 中 我 们 递 过 一 
些 例子 来 考察 这 个 问题 。 

第 一 个 例子 : BOE RIB Ua FY ew: 

g(p) = 1+sin( 7p), -2< p <2 (11.49) 


其 中 i 取 值 1，2，4 和 8。 随 i 的 增加 ， 函 数 变 得 更 为 复杂 ， 在 -2<p <2 的 区 间 内 将 有 更 

多 的 正弦 波 周期 。 当 i 增加 时 ， 很 难 用 隐 层 中 神经 元 数目 固定 的 神经 网 络 来 帝 近 g(p)。 11-17 
对 这 个 例子 ， 我 们 使 用 一 个 1 -3- 1 网 络 ， 第 一 层 的 传输 函数 为 对 数 -5S 形 ， 第 二 层 的 

传输 函数 是 线性 函数 。 根 据 11.2.1 节 中 函数 逼近 的 例子 ， 这 种 两 层 网 络 的 啊 应 是 三 个 对 数 

-S$ 形 函 数 之 和 (或 多 个 对 数 - $ 形 函数 之 和 ， 只 要 隐 层 中 有 同样 多 的 神经 元 )。 显 然 ， 对 这 

个 网 络 能 实现 的 函数 有 多 么 复杂 有 一 个 限制 。 图 11-12 是 网 络 经 训练 来 通 近 g(p)( 对 i=1， 
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2，4，8) 后 的 啊 应 曲线 。 最 终 的 网 络 响应 曲线 用 图 中 画 出 的 曲线 来 表示 。 

以 看 到 ， 对 i=4， 这 个 1 - 3 -1 网 络 达 到 了 它 的 最 大 能 力 。 当 i > 4 时 ， 网 络 不 能 产 
Æ g(p) 精 确 的 逼近 曲线 。 从 图 11-12 右 下 方 的 图 中 可 以 看 到 1 -3- 1 网 络 试 图 逼近 i = 8 时 
的 函数 g(p)。 网 络 的 响应 和 g(p) 之 间 的 均 方 误差 达到 了 最 小 化 ， 但 网 络 响应 曲线 只 能 与 
盟 数 的 一 小 部 分 相 匹 配 。 


3 3 

2 2 

1 4 

0 0 

1 1 0 1 2 1 1 0 1 2 





图 11-12 Ħ 1-3-1 AE BRI 


下 一 个 例子 中 将 从 一 个 稍 有 些 不 同 的 角度 来 解决 此 问题 。 这 次 我 们 选择 函数 g(p)， 然 
后 使 用 越 来 越 大 的 网 络 直 到 能 精确 地 允 近 函数 为 止 。g(p ) 采 用 


glp) = l+ sin( Fp), -2< p <2 (11.50) 
11-18! 我 们 用 两 层 网 络 来 逼近 此 晒 数 ， 第 一 层 的 传输 函数 是 对 数 - STB RR, BEBERE 
函数 (1 - $L -1 网络 )。 如 本 章 前 面 所 述 ， 网 络 的 响应 是 $1S 形 函 数 的 迭 加 。 

图 11-13 为 第 一 层 ( 隐 人 层 ) 的 神经 元 数目 增加 时 的 网 络 响应 曲线 。 除 非 网 络 隐 层 中 至 少 有 
5 个 神经 元 ， 否 则 网 络 不 能 精确 地 表示 glp). 


LAA P 
UU V 








"22 -1 0 1 2 


图 11-13 ”增加 隆 层 中 的 神经 元 数目 的 影响 
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总 结 起 来 说 ，1-S$ -1 网 络 在 隐 层 中 为 S$ 形 神经 元 而 在 输出 层 中 为 线性 神经 元 时 ， 可 
以 产生 $ S$ 形 函数 相 杜 加 的 网 络 啊 应 曲线 。 知 要 台 近 有 大 量 抛 点 的 函数 ， 隐 层 中 就 要 有 大 
量 的 神经 元 。 
使 用 Neural Network Design Demonstration Function Approximation (nndllfa ) 可 
尺 达 到 对 两 层 网 络 能 力 更 深 的 认识 。 





2. He SpE 

在 前 一 节 给 出 的 一 些 例子 中 ， 尺 管 BP 算法 可 以 获得 使 均 方 误差 最 小 化 的 网 络 参数 ， 网 
络 的 响应 却 不 能 精确 地 逼近 所 期 望 的 函数 。 这 是 由 于 网 络 的 能 力 受 隐 层 中 章 经 元 数目 的 限 
制 。 本 节 将 给 出 一 个 例子 ， 其 中 网 络 能 有 逼近 郴 数 ， 但 学 习 算法 不 能 产生 精确 遏 近 解 的 网 络 参 
数 。 下 一 章 将 更 详细 地 讨论 这 个 问题 ， 并 解释 为 什么 会 这 样 。 现 在 先 来 叙述 这 个 问题 ， 

网 络 要 通 近 的 画 数 为 

g(p) = l+sin(rp),-2<p <2 (11.51) 

我 们 用 一 个 1-3-1 POS RT a, APA ARRA RRENA- 形 函 数 ， 第 二 层 
的 是 线性 晴 数 。 

图 11-14 说 明 学 习 算 法 收 伍 到 使 均 方 误 差 最 小 的 一 个 解 的 情况 。 细 线 开 示 中 间 和 欠 代 续 
果 ， 粗 线 表示 最 终 解 ， 此 时 算法 收敛 。( 每 条 曲线 旁边 的 数字 表示 迭代 的 顺序 ，0 表示 初始 
条 件 ，5 表示 最 终 解 。 这 些 曲线 没有 列 出 对 应 的 迭代 次 数 ， 数 字 仅 表示 一 个 顺序 。) 





图 11-14 ” 收 伍 到 全 局 最 小 值 


图 11-15 说 明 学 习 算 法 收敛 到 一 个 解 但 均 方 误差 并 没有 被 最 小 化 的 一 和 情况 。 粗 线 ( 标 
记 为 5) 代表 最 终 的 迭代 中 的 网 络 响 应 。 在 最 终 的 迭代 计算 中 ， 均 方 误差 的 梯度 为 0， 因 而 得 
到 一 个 局 部 极 小 值 ， 但 正如 图 11-14 中 表示 的 ， 存 在 一 个 更 好 的 解 。 图 11-15 中 的 结果 与 图 
11-14 中 的 结果 之 间 的 差别 仅仅 是 初始 条 件 。 从 一 个 初始 条 件 开 始 ， 算 法 收 伍 到 全 局 极 小 值 
点 ， 而 从 另 一 个 初始 条 件 开始 ， 算 法 收敛 到 一 个 局 部 极 小 值 点 。 

注意 LMS 算法 不 会 产生 这 样 的 结果 。ADALINE 网 络 中 均 方 误差 性 能 指标 是 只 有 一 个 
极 小 值 点 的 二 次 函数 (在 大 多 数 条 件 下 )。 因 而 只 要 学 习 速 率 足 够 小 ，LMS 算法 保证 收敛 到 
全 局 极 小 值 。 通 常 ， 多 层 网 络 的 均 方 误差 非常 复杂 且 有 许多 局 部 极 小 值 (在 下 一 章 中 将 看 到 
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这 一 点 )。 当 BP 算法 收敛 时 ， 我们 并 不 能 确定 是 否 求 到 了 最 优 解 。 最 好 的 办 法 是 多 试 几 个 
不 同 的 初始 条 件 以 保证 得 到 最 优 的 解 。 
3. 推广 
在 大 多 数 情 况 下 ， 用 有 限 多 个 正确 网 络 行 为 的 例子 来 训练 多 层 网 络 . 
(pisti!, ip, bts. Ipo, to! (11.52) 
这 个 训练 集 常 党 代表 一 类 大 得 多 的 可 能 的 输入 /输出 对 。 因 而 网 络 将 它 学 习 到 的 例子 成 功 地 
推广 到 总 体 这 一 点 是 重要 的 。 
例如 ， 假 定 训 练 集 是 通过 采样 下 面 的 函数 得 到 的 : 
g(p) = 1 + sin{ =p] (11.53) 
采样 点 为 p= -2，-1.6，-1.2，…，1.6，2( 总 共有 11 个 输入 /输出 对 )。 在 图 11-16 中 ， 
1121) 可 以 看 到 经 这 些 数据 训练 后 的 1 - 2 - 1 网 络 的 响应 。 细 线 代 表 g(p )， 粗 线 代 表 网 络 的 响 
M, FSS + "表示 训练 集 。 
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图 11-16 FR 1-2-1 网 络 通 近 函数 glp) 
可 以 看 到 ， 网 络 响应 曲线 可 以 很 精确 地 表示 g(p )。 若 要 求 网 络 在 p 点 的 啊 应 值 ， 而 p 点 不 
包含 在 训练 集中 (如 p = - 0.2)， 网 络 仍 将 产生 接近 于 g(p) 的 输出 。 网 络 的 推广 结 采 很 好 。 
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再 看 图 11-17， 它 表示 使 用 同样 的 数据 集训 
练 一 个 1 - 9 - 1 网 络 后 得 到 的 网 络 啊 应 结果 。 
注意 在 所 有 训练 点 上 ， 网 络 的 响应 很 精确 地 到 
近 g(p)。 然 而 ， 若 我 们 计算 不 包含 在 训练 集中 
的 点 p( 如 p= -0.2) 对 应 的 网 络 响 应 ， 网 络 所 
产生 的 结果 可 能 与 g(p ) 的 结果 差 得 很 远 。 因 而 
这 个 网 络 没 有 被 很 好 地 推广 。 

对 此 问题 ，]1 - 9 -1 网 络 又 过 于 灵活 了 ; € 
总 共有 28 个 可 调节 的 参数 (18 个 权 值 和 10 Mis 
置 值 ) ， 然 而 在 训练 集中 只 有 11 个 数据 点 。1 - 
2-1 网 络 只 有 7 个 参数 ， 因 而 它 能 实现 的 函数 
类 型 非常 受 限 。 
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图 11-17 用 1-9-1 网 络 逼 近 g(p) 


一 个 网 络 要 能 被 推广 ， 它 应 当 具 有 了 比 训练 集中 的 数据 点 少 的 参数 。 在 神经 网 络 中 ， 正 
如 在 所 有 建 模 问题 中 ， 要 用 足以 表示 训练 集 的 最 简单 的 网 络 。 只 要 有 一 个 更 小 的 网 络 能 工 
作 ， 就 不 要 使 用 更 大 的 网 络 ( 常 被 称 作 Ockham 的 AII”) o 

若 不 使 用 最 简单 的 网 络 ， 那 么 另 一 种 办 法 是 在 网 络 得 到 恰当 调整 后 停止 训练 。 这 个 过 程 
的 介绍 以 及 其 他 提高 网 络 推广 性 能 的 技术 可 参见 第 19 HE 





试验 神经 网 络 的 推广 请 用 Neural Network Design Demonstration Generalization 


第 三 层 


NN 


(nndllgn) 。 
11.3 wa 
多 层 网 络 
输入 第 一 - 层 AB 
Pp a! 
I Rx1 | n! Sixt n2 
S'xR x 
i + Sixt ft +) S*x1 
sat 1| b 
R Six1 $1 S2x1 
WS 
a! = f ! (W'p+b!) a? = f 2(W2a! + b?) 












a2 w a3 
= Sx S? oa 

Orr 
DLA 


§2 S°x 1 53 


a? = f3(Wa2+b>) 


a3 = f 3 (W3 f 2 (Wf! (W'p+b')+b2) +b) 


反 向 传播 算法 
性 能 指标 


F(x) = E[e’e] = E[ (t - a)" (t - a) ] 


E TERE HEER 
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F(x) = e7(k)e(k) = (t(k) - a(k))*(t(k) - a(k)) 











敏感 性 
oF 
dnt 
; oF 
| 3f 
11-24; = 
ann 
前 向 传播 
a’ =p 
gmt! = f"+!(W"™+ia™ + b”+!), m = 0,1,:°°,M _ ] 
a= a” 
Bz o fei 
s” = — 2F” (n”)(t - a) 
s” = F”(n™)(W7+!)75"+! om = M- 1,°°°,2,1 
这 里 
fr (nt) 0 ii 0 
b” (nm) _ A e : 
0 0 fC nin) 
9 
f"(n}) = ee 
权 值 更 新 {近似 最 速 下 降 法 ) 
W"(k +1) = W"(k) -as Cam- ) 
41-25; b”(k +1) = b™(k) - as” 
11.4 例题 


P11.1 考虑 图 11-18 中 的 两 类 模式 ， 类 I 表示 垂直 线 ， 类 了 本 表 示 水 平 线 ， 


EA) 
an ae ) 类 II 


图 11-18 例题 P11.1 的 模式 类 别 
(i) 这 些 类 别 是 否 是 线性 可 分 的 ? 
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Ci) 设计 一 个 多 层 网 络 来 区 分 这 些 类 别 。 
解 
(i) 首先 通过 依次 扫 摘 模式 中 的 各 列 将 模式 表示 成 向量 。 每 个 日 的 方块 用 ”- 1 表示， 
到 的 方块 用 LRR HEB Be (ZB 工 的 模 陈 ) 则 表示 为 
l — | 


l — 1 
p; = _ 1 各 p, = 


KFR TT BEL) BANA 


P=], M mal y 
-1 ! 
为 了 使 这 些 类 别 线性 可 分 ， 必 须 能 在 这 两 个 类 别 之 则 放置 一 个 超 平面 。 即 是 ， 必 须 有 一 


SUE REE W 和 偏 置 值 b 满足 
Wp, + b > 0, Wp, +b > 0, Wp, + b < 0, Wp+oe<0 


这 些 条 件 可 转化 为 Lek 
EE W 1 2 Wig w44] _ 1 — [wy 十 wia = Wig = 201 4 » 0 
一 
| - Wii = W12 十 W] 3 + wia] > 0 
Lwi- Wj t W3- w4] < 0 


= Wij + W112 — W 1 3 + Wy 44 < 0 


前 两 个 条 件 可 化 简 为 

Wit WI,2 > Wiat Wig A wig + wig > Wia + W1,2 
这 是 矛盾 的 。 后 两 个 条 件 可 化 简 为 

Wii t Wia > 212 十 wia A wiat Wig > Wig + W1,3 | 
这 也 是 矛盾 的 。 因 此 ， 没 有 超 平面 可 以 将 这 两 个 类 别 分 开 。 

(ii) 有 许多 多 层 网 络 可 解决 此 问题 。 设 计 网 络 时 首先 注意 到 ， 对 类 工 的 问 量 ， 或 者 是 
前 面 两 个 元 素 ， 或 者 是 后 面 两 个 元 素 为 “1"。 类 开 的 向 量具 有 “1 "和 ”- 1” 交替 出 现 的 模式 。 
因而 所 设计 的 网 络 如 图 11-19。 

第 一 层 中 的 第 一 个 神经 元 测试 输入 向 量 的 前 两 个 元 素 。 若 它们 均 为 "1”， 则 输出 “1 ， 
否则 输出 “ - 1"。 第 一 层 中 的 第 二 个 神经 元 测试 输入 向 量 的 后 两 个 元 素 。 第 一 层 中 的 神经 元 
均 执 行 AND 操作 。 第 二 层 网 络 测试 第 一 层 的 输出 是 否 为 "1"。 它 执行 OR 操作 。 这 样 ， 当 输 
人 向 量 前 两 个 元 素 或 后 两 个 元 素 都 为 "1 时 ， 网 络 将 输出 1 。 

P11.2 图 11-20 中 为 一 个 分 类 问题 ， 类 了 向量 代表 空心 圆 ， 类 五 向 量 代表 实心 圆 。 这 些 
类 别 不 是 线性 可 分 的 。 设 计 一 个 能 将 它们 正确 分 类 的 多 层 网 络 。 

我 们 将 用 一 个 能 用 于 任意 分 类 问题 的 过 程 来 解决 这 个 问题 。 它 需要 一 个 三 层 网 络 ， 每 一 
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输入 


AND 运算 


OR 运算 


es eae ee, 


Pı 2 
n', a, 
P2 2 2 ] mi a, 
“4 n 
P3 n' a! 2 l 
Ps -] 
WJ 、 J 一 > 


11-19 区 分 水 平 线 和 垂直 线 的 网 络 


层 的 神经 元 数目 是 固定 的 (hard-limiting)。 第 一 层 产 生 将 类 工 向 量 和 类 开 向 量 分 开 的 线性 判 
定 边界 集合 。 这 个 问题 中 要 用 11 个 这 样 的 边界 ， 如 图 11-21 所 示 。 





图 11-20 分 类 问题 


图 11-21 第 一 层 判定 边界 


第 一 层 权 值 矩阵 中 的 每 一 行 对 应 于 一 个 判定 边界 。 第 一 层 的 权 值 矩 阵 和 偏 置 值 为 
1-1 1 -1 1 -1 1 | 


11-28 (W')? = 


l -1 -lI 


~1 1 -1 1 -1 1 1 


(bi)? = [-2 30.5 0.5 -1.75 2.25 -3.25 3.75 6.25 -5.75 - 4.75] 
(回想 第 3，4 章 和 第 10 章 中 对 一 个 给 定 判定 边界 计算 合适 的 权 值 矩阵 和 偏 置 值 的 过 程 。) 下 
面 可 以 用 第 二 层 的 AND 神经 元 将 第 一 层 11 个 神经 元 的 输出 划分 为 组 。AND 神经 元 跟 我 们 
在 例题 P11.1 中 第 一 层 网 络 所 使 用 的 一 样 。 第 二 层 的 权 值 矩阵 和 偏 置 值 为 


W = 


1 1 1 1 0 
00 0 0 1 
0 0 0 0 1 
0 0 0 0 Q 


0000 0 0 - 3 
100101 -3 
, b’ = 
00111 0 -3 
011101 -3 


第 二 层 的 四 个 判定 边界 如 图 11-22 所 示 。 例 如 ， 神 经 元 2 的 判定 边界 由 第 一 层 的 边界 5, 
6,9 和 11 组 合 而 成 。 这 可 以 在 W 的 第 2 行 中 看 到 。 
第 三 层 中 ， 我 们 将 第 二 层 的 四 个 判定 区 域 通过 OR 操作 结合 成 一 个 判定 区 域 。 如 例题 
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图 11-22 第 二 层 判 定 区 域 


P11.1 中 最 后 一 层 网 络 那 样 。 第 三 层 的 权 值 矩阵 和 偏 置 值 为 
WW=[1 1 1 1], b = [3] 

整个 网 络 如 图 11-23, 

只 要 在 隐 层 中 有 足够 的 神经 元 ， 设 计 上 面 网 络 的 过 程 可 用 来 解决 具有 任意 的 判定 边界 分 
类 问题 。 办 法 是 用 第 一 层 网 络 产生 一 定数 量 的 线性 边界 ， 然 后 在 第 二 层 用 AND 神经 元 ， 第 
三 层 中 用 0R 神经 元 ， 将 它们 结合 起 来 。 第 二 层 的 决策 区 域 是 凸 的 ， 但 第 三 层 产 生 的 最 终 的 
判定 边界 可 以 是 任意 形状 的 。 

输入 初始 判定 AND 运算 OR 运 算 
_ 
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ee 
a! = hardlims(W'p+b') a? = hardlims (Wa! +b?) a? = hardlims (Wa? + b?) 


图 11-23 ”例题 P11.2 的 网 络 


网 络 的 最 终 判 定 区 域 由 图 11-24 给 出 。 在 阴影 区 域 的 任 向 向 量 将 产生 网 络 输出 1， 它 对 
应 于 类 。 任 何其 他 向 量 产生 网 络 输出 - 1， 它 对 应 于 类 I.o 





图 11-24 最 终 的 判定 边界 


P11.3 说 明 具 的 线性 传输 函数 的 多 层 网 络 等 价 于 单 层 线性 网 络 。 


解 
对 多 层 线性 网 络 ， 前 向 传播 等 式 为 
al = Wip +b 
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ae = Wal +b = WW'p+ [Wb +b] 
a = Wa +b = WWW p + [WW b + Wh +b] 
继续 下 去 可 以 看 到 ， 对 M 层 的 线性 网 络 ， 等 价 的 单 层 线性 网 络 将 具有 如 下 的 权 值 矩阵 
和 偏 置 值 向 量 : 
11-30) | W = WW- WW 
b = [WW Wb + DW WwW"! We ]b? + + b" 
P11.4 此 问题 的 目的 是 说 明 链 法 则 的 使 用 。 考 虑 如 下 的 动态 系统 : 
y(k +1) = f(y(k)) 
要 求 选择 初始 条 件 y(0)， 使 得 在 某 一 终止 时 刻 k = K， 系 统 的 输出 y(K) 将 尽 可 能 地 接 
近 某 一 目标 输出 :。 我 们 将 用 最 速 下 降 法 使 性 能 指标 最 小 化 。 性 能 指标 为 
F(y(0)) = (t - y(K))? 


为 此 需求 得 梯度 
70 Fy) 
寻求 一 个 用 链 法 则 计算 它 的 过 程 。 
解 
梯度 为 
了 A(t 一 Ki) le 
关键 项 为 


9 
TOM K)| 
而 它 不 能 被 直接 求 得 ， 因 为 y( 天 ) 并 不 是 y(0) 的 显 式 函 数 。 先 定义 一 个 中 间 项 


r(k) = TOÀ 


这 样 就 可 以 使 用 链 法 则 ， 
9 9y(k+1) 9y(k) ylk + 1) 
r(k + 1) = FO + 1) = ylk) x ay(0) = 一 2 y(k) 


从 系统 的 动态 方程 可 知 


x rlk) 





dy(k +1) E af(y(k)) 
Ay(k) B dy(k) 


因此 ， 计 算 >(8) 的 递归 等 式 为 
r(k +1) = fly(k))r(k) 





= f(y(k)) 


在 k=0 的 初始 值 为 
9y(0) 
r(0) = = 
(0) 5 (0) 
于 是 ， 计 算 梯 度 的 整个 过 程 为 
r(0) = 1 


rk +1) = fly(k))r(k), k= 0,1, =, K-1 
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3 
FOA = 2(t - y(K))l- r(K)] 
P11.5 考虑 图 11-25 PRBS, BAHAI RERA 
w! = 1, b! = 1, w? sD pe = | 


一 个 输入 /目标 对 为 


(Cp = 1),(t = 1)) 
(i) 求 均 方 误差 (e)， 它 为 所 有 权 值 和 偏 置 值 的 显 式 函数 。 
(ii) 用 (iD) 题 的 结果 来 求 初始 权 值 和 偏 置 值 下 的 a(e) “vaw 。 
(iii) 用 反 向 传播 算法 重复 (让) 题 ， 并 比较 结果 。 


输入 Log-Sigmoid Æ 线性 层 
一 





a! = logsig(w'p+6') a? = purelin(w2a!+b2) 


图 11-25 例题 P11.5 的 两 层 网 络 


解 
(i) 均 方 误差 为 
rey RE 2 
(e = (t-a) = e ~ fu? (1 + expl- (w'p + b'))) y B2} 
(ii) 导数 为 
3(e) ,9e | 1 
lek = 2e $ = Del Cap ep = (wip + BUN p)} 


为 了 计算 在 初始 权 值 和 偏 置 值 下 的 这 个 导数 值 ， 求 


1 1 
CC on 


a? = wa' + b? = (- 2)0.8808+1=-0.7616 
e = (t — a?) = (1- (-0.7616)) = 1.7616 


Ile)? 1 
A = We Wy j xl = a A p12e*p( (w' p 十 bi))(- p)} 


a: SOOS 
= 2(1.7616){ (= 2) ra ay, pE (UD) +D- 1) | 


=" 
= 3.5232( 0.2707 TE S = 9-738 


(iii) 使 用 式 (11.44) 和 (11.45) 进 行 敏感 性 反问 传播 算法 : 
2 -_2H2(n2)(t-a) =-2(1)(1-(-0.7616)) = - 3.5232 
s! = FI(nI)(W2)7S2 = [al(1 -al)j(-2)8 
= [0.8808(1 - 0.8808) ](- 2)(- 3.5232) = 0.7398 
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由 式 (11.23) 可 计算 3(e)27a w! 
m = s'a? = sip = (0.7398)(1) = 0.7398 


13) 这 与 我 们 在 (ii) 题 中 得 到 的 结果 一 致 。 
P11.6 在 本 章 前 面 我 们 已 经 表明 ， 者 神经 元 传输 函数 为 对 数 -S ER 





a= f(n) = 


一 fh 


l+e 
则 通过 下 式 可 方便 地 求 得 导数 

f(n) = a(l- a) 

寻找 一 种 方便 的 办 法 求 双 曲 正切 S 形 函 数 的 导数 ; 


a = f(n) = tansig(n) = le 
e+e" 





解 
直接 计算 导数 得 
d 4 d et. e`” e — e`" 2 : oe n 4 eT” 
j(n)= Gn ar erred ae eed te" — ¢ ep 
(ese)? r 
= 一 (en HESY = ]- (a) 


P11.7 对 图 11-26 中 的 网 络 ， 初 始 权 值 和 偏 置 值 为 
w'(0) =-1, 681(0)=1, w (0) = 一 2， b7(0) = | 


一 个 输入 /目标 对 是 
((p=-1),(t= 1)) 


[11-34] BWa=1, WTKR MERREN. 


mA 双 曲 正切 -S BE 双 曲 正切 -S 形 层 





a? = tansig (w2ai+b2) 


a! = tansig(w'p+b!) 
图 11-26 ”两 层 双 曲 正 切 -$ 形 网 络 


解 
第 一 步 是 通过 网 络 传播 输入 。 
ni = wip +b = (-1)(-1) +1 = 2 
a = tansig(n ) = sa ia eke Sa. = a i ee = 0.964 
exp(n') + exp(- n!)  exp(2) + expl- 2) 
n? = wa! + b? = (- 2)(0.964) + | = - 0.928 
exp(n*) ~ expl- n°) E exp( — 0.928) - exp(0.928) s 


2 ， < 
= í = ~ B 
a ansig( n”) exp(- 0.928) + exp(0.928) 


expl n?) + expl- n°) 
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e = (t - a?) = (1 - (-0.7297)) = 1.7297 
现在 用 式 (11.44) 和 (11.45) 反 传 敏 感性 : 
S=- 2F*(n*)(t-a) =- 2/1 - (a?) ] (e) = - 2[1 - (- 0.7297)*]1.7297 
= — 1.6175 
s! = F'(n')(W’) TS = [1 - (a!)*] w’s? = [1 - (0.964)*](- 2)(- 1.6175) 
= 0.2285 
最 后 ， 用 式 (11.46) 和 (11.47) 更 新 权 值 和 偶 置 值 : 
w2(1) = w2(0) - as*(a!)? = (- 2) -1(- 1.6175)(0.964) = - 0.4407 
w'(1) = w'(0) — as'(a®°)? = (— 1) - 1(0.2285)(- 1) =- 0.7715 
b2(1) = 67(0) - as? = 1 - 1(- 1.6175) = 2.6175 
b'(1) = b'(0) ~ as! = 1 - 1(0.2285) = 0.7715 
P11.8 图 11-27 是 将 标准 两 层 前 向 传播 网 络 稍 作 修 改 得 到 的 网 络 。 从 输入 有 一 条 到 第 二 
层 的 直接 连接 。 推 导 此 网 络 的 反 向 传播 算法 。 


11-35 


输入 第 1 层 第 2 层 





图 11-27 具有 旁 路 连接 的 网 络 


首先 ， 前 向 方程 为 
n! = Wip + bi 
a! = fi(n!) = f'(W'p + b!) 
n = Wa! + W'p +b 
a = P(n?) = (Wal + W>'p + b) 
与 标准 两 层 网 络 相 比 ， 敏 感性 的 反 向 传播 方程 不 会 改变 。 敏 感性 是 均 方 误差 对 网 络 输入 
的 导数 ， 由 于 我 们 仅仅 在 网 络 输入 中 增加 了 一 项 ， 这 些 导 数 不 会 改变 。 = 
下 一 步 需要 求 权 值 更 新 方程 的 梯度 元 素 。 对 标准 的 权 值 和 侦 置 值 有 
OF OF Anr 
awn, ant” awh, 
ak əf Ən 
T T = © 
At, W, b, WAP 的 更 新 方程 不 变 。 需 要 的 是 一 个 额外 的 W… 的 方程 : 


m 
t 





m—1| 
= § a | 
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oF ak əni 2 Oni 
Iwy! T Inh” awl = Y awl 
为 求 等 式 右 边 的 导数 ,注意 
G R 
ns = 2 wija) 十 之 wip, + b? 
J e 
因此 
In? OF > 
awh = È Bh] = 
因而 更 新 方程 可 以 写成 矩阵 形式 : 
W"(k +1) = W"(k) -asramr-l) ,mm = 1,2 
m = 1,2 


b”(k +1) = b”(k) - as”, 
Wk +1) = W'Ck) -af (a?)T = WICk) -as (p) 7 

此 问题 的 要 点 是 ， 反 传 的 概念 可 被 用 于 比 标准 的 多 层 前 馈 网 络 更 一 般 的 网 络 。 
P11.9 基于 反 疝 传播 的 概念 ， 求 一 个 能 更 新 图 11-28 中 所 示 的 递归 网 络 的 权 值 w 


W 4 的 算法 o 
输入 线性 递归 层 





a(k+1) = purelin(w, p(k) +w,a(k)) 
图 11-28 线性 递归 网 络 


解 
第 一 步 是 定义 性 能 指数 。 如 同 多 层 网 络 ， 我 们 使 用 均 方 误差 
F(x) = (t(k) - a(k))? = (e(k))? 


使 用 最 速 下 降 法 进行 权 值 更 新 ， 
Aw, =- @ -P (x) 


这 些 导 数 可 计算 如 下 ，; n 
yw Fw) ai POO - a(k))* = 2(t(k) - a(k)){ - E H | 


因此 ， 需 要 计算 的 关键 项 是 
Jal k) 


3w, 


要 计算 这 些 项 ， 首 先 需 要 写 出 网 络 方程 
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alk +1) = purelin(w,p(k) + wa(k)) = wypCk) + walk) 
两 边 对 网 络 权 值 求 导 数 得 ， 


dalk +1) dalk) 
Er A x alk) + w, a 11-38 


(注意 我 们 必须 考虑 到 ak ABBE w 和 w, 的 函数 的 事实 。) 最 速 下 降 法 中 更 新 权 值 时 使 用 
这 两 个 递归 方程 来 计算 导数 。 方 程 用 

Jal0) | 0 da(0) _ 0 

Ow, gw | 


Meek, RRA MM RIEH EAE BR. 
要 说 明 此 过 程 ， 先 假定 a(0) = 0。 第 一 次 网 络 更 新 为 
a(1) = wip(0) + w,a(0) = w,p(0) 


第 一 个 导数 为 

dall 9 da d 

AU pCO) + m FAO = pla), BEY = ol0) + wa FEY = 0 
第 一 次 权 值 的 更 新 为 


l 


Aw; =- ag P(x) =~ af 200) - aaf- 30) 


Aw, =- 2a(t(1) ~ a(1))!- p(0)) 

Aw, =~ 2a(t(1) - a(1))i0} = 0 
这 个 算法 属于 动态 反 向 传播 类 型 ， 其 中 梯度 是 用 不 同 的 方程 计算 的 。 
P11.10 对 单 层 线性 网 络 (ADALINE)， 说 明 反 向 传播 算法 退化 为 LMS BK. 
解 : 
对 单 层 线性 网 络 ， 敏 感性 的 计算 为 : 

s! = - 2F'(n')(t- a) = - 21(t-a) = - 2e 
权 值 的 更 新 ( 式 (11.46) 和 (11.47)) 为 
Wi(k+1) = Wi(k) -as (a?) = WI(k) -a(- 2e)p’ = Wk) + 2aep’ 
bi(k +1) = bi(k) ~ as) = bi(k) -~ al- 2e) = bi(k) +2ae 

这 与 第 10 章 中 的 LMS 算法 相同 。 11-39 


11.5 结束语 


本 章 中 讲述 了 多 层 感 知 器 网 络 和 反 向 传播 学 习 规 则 ， 多 层 网 络 扩展 了 单 层 感知 获 网 络 ， 
功能 更 强大 。 单 层 网 络 只 能 区 分 线性 可 分 的 模式 ， 但 多 层 网 络 能 用 于 任意 的 分 类 问题 。 此 
外 ， 多 层 网 络 可 用 作 通 用 的 函数 逼近 器 。 研 究 表明 ， 一 个 两 层 网 络 只 要 在 其 隐 层 中 有 足够 的 
神经 元 ， 且 隐 层 神经 元 的 传输 函数 是 $ 形 类 型 的 ， 便 可 以 逼近 任何 实际 的 函数 。 

BP 算法 是 LMS 算法 的 扩展 ， 可 用 来 训练 多 层 网 络 。LMS 算法 和 BP 算法 都 是 使 均 方 误 
差 最 小 化 的 最 速 下 降 法 。 它 们 的 惟一 区 别 在 于 梯度 的 计算 方法 。 为 了 计算 均 方 误差 对 于 隐 层 
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PAE A Be Sa, BP 算法 使 用 了 链 法 则 。 导 数 育 先 在 网 络 的 最 后 一 层 筱 计算 ， 然 
后 反 疝 传播 通过 网 络 ， 并 用 链 法 则 计算 隐 层 中 的 导数 ， 算 法 也 因此 而 被 称 为 反问 传播 法 。 

反 向 传播 的 一 个 主要 问题 是 它 需 要 较 长 的 训练 时 间 。 使 用 基本 反 向 传播 算法 求解 实际 
问题 是 不 可 行 的 ， 因 为 它 需 要 用 几 周 的 时 间 来 训练 网 络 ， 其 至 要 用 大 型 机 。 由 于 反问 传播 算 
法 首先 得 以 流行 ， 已 经 有 了 许多 研究 加 速算 法 收 合 的 工作 。 在 第 12 章 中 ， 我 们 将 讨论 反 办 
传播 算法 收敛 慢 的 原因 ， 并 将 给 出 提高 算法 性 能 的 几 种 技术 。 
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这 本 书 是 在 20 世纪 80 年 代 对 神经 网 络 领域 研究 兴趣 的 复兴 有 重要 影响 的 两 个 事 
件 之 一 。 除 其 他 主题 之 外 ， 该 书 给 出 了 训练 多 层 神经 网 络 的 BP RE. 
[ Werbo74] P.J. Werbos, “Beyond regression: New tools for prediction ancl analysis in the be- 
havioral sciences, Ph. D. Thesis, Harvard University, Cambridge, MA, 1974. 
这 篇 博士 论文 看 起 来 是 第 一 个 对 BP 算法 进行 描述 的 文章 (尽管 没有 使 用 反问 传播 
的 名 字 )。 这 里 ， 算 法 是 在 一 般 网 络 的 上 下 文中 描述 的 ， 而 将 神经 网 络 作为 一 个 特例 。 
直到 20 世纪 80 年 代 中 期 Rumelhart, Hinton 和 Williams [ RuHi86], David Parker 
[Park85] 和 Yann Le Cun [LeCu85] 重 新 发 现 了 BP 算 法， 此 算法 才 广 为 人 知 。 


习题 
E11.1 设计 一 个 能 完成 图 11-29 中 的 分 类 问题 的 多 层 网 络 。 只 要 输入 向 量 在 阴影 区 域 
(或 边界 上 )， 网 络 应 输出 1， 否 则 输出 -1。 


ww ai bbt. com DODODODOODODOD 


BI? KAHER 223 


Á IN 


图 11-29 ”模式 分 类 区 域 


E11.2 求 一 个 与 图 11-30 中 的 网 络 有 相同 输入 /输出 特性 的 单 层 网 络 。 
输入 线性 层 1 线性 层 2 





图 11-30 ”两 层 线 性 网 络 


F11.3 选择 图 11-4 中 的 1 -2 -1 网络 的 权 值 和 偏 置 值 ， 使 得 网 络 响 应 曲线 通过 图 11-31 
中 圆圈 所 指示 的 点 。 





图 11-31 ”函数 逼近 习题 


使 用 Neural Network Design Demonstration Two-layer Network Function (nndllnf) 米 检查 
你 的 结果 。 11-43 





E11.4 用 链 法 则 来 求 下 面 函数 的 导数 3 F/a w : 
(i) f(n)=sin(n), n(w)= w? 
(ii) f(n)=tanh(n), n(w)=5w 
(iii) f(n) =exp(n), n(w)=cos( w) 
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(iv) f(n) =logsig(n), n(w) =exp(w) 
E11.5 使 用 下 面 描述 的 “ 反 向 "法 重新 计算 例题 P11.4。 在 例题 P11.4 中 ， 动 态 系统 为 
y(k +1) = f(y(k)) 
我 们 需要 选择 初始 条 件 y(0) ， 使 得 在 某 一 终止 时 刻 丰 = 大， 系统 输出 y KAR 
可 能 地 接近 目标 输出 上。 我 们 用 最 速 下 降 法 使 性 能 指标 
F(y(0)) = (t - y(K))? = (K) 
最 小 化 ， 因 而 需求 梯度 ‘ 
ay (0) P6960)? 
在 用 链 法 则 计算 这 个 梯度 的 过 程 中 ， 涉 及 到 下 面 项 的 递归 方程 : 
d 
r(k) = 707A? 
它 随时 间 前 进而 展开 。 梯 度 也 可 以 以 时 间 的 反 癌 顺序 展开 下 而 项 来 得 到 . 
dg 
q(k) = Fy (hye | K) 


E11.6 再 次 考虑 11.2.3 节 的 反 向 传播 例子 。 
(i) 求 均 方 误差 (e)， 它 是 所 有 权 值 和 候 置 值 的 显 式 函 数 。 
(ii) 用 (i) 题 的 结果 计算 在 初始 权 值 和 偏 置 值 下 的 9(e)*/9wi,1。 
(ii) 比较 (ii) 题 中 的 结果 和 文中 由 反 传 算法 得 到 的 结果 。 
E11.7 对 图 11-32 中 的 网 络 ， 初 始 权 值 和 偏 置 值 设 为 
w!(0) = 1,5'(0) =-2,2w2(0) = 1,67(0) = 1 


网 络 传输 函数 为 i 
fi(n) = (nY, f Cn) = > 
_ 个 办 aK 
站 输入 /目标 对 为 (O = 1),(t = 1) 
对 a= 1 的 反 传 算法 ， 执 行 一 次 迭代 。 | 
输入 第 一 层 第 二 层 





a! =f!(w'p+b!) a2 = f2(w2a'+b2) 


11-32 “习题 E11.7 的 两 层 网 络 


E11.8 对 图 11-33 中 的 网 络 ， 神 经 元 传输 函数 为 
fi(n) = (ny 
一 个 输入 /输出 对 为 
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对 a= 1 的 反 向 传播 法 ， 执 行 一 次 迭代 。 





图 11-33 ”习题 E11.8 的 单 层 网 络 


E11.9 图 11-34 中 的 网 络 没 有 使 用 我 们 所 用 的 标准 神经 元 格式 。 网 络 输出 是 网 络 输入 的 
FFR: 
a = Wyp, + Wi 2PıP2 + Wop, + 0 
用 近似 最 速 下 降 法 ， 求 w wz w, M b 的 象 BP 算 法 中 所 用 的 那样 的 学 习 规 则 。 L146 
输入 Cross-Product 神经 元 





4a= W1 Py +W 2P|P2+W2P2+0 


图 11-34 交叉 积 (Cross-Product) 网 络 


E11.10 图 11-35 中 为 一 个 两 层 网 络 ， 它 有 一 个 从 输入 端 直接 到 第 二 层 的 附加 连接 。 推 
导 此 网 络 的 反 向 传播 算法 。 


输入 第 一 层 第 二 层 





a! = f\(w! p+b!) a2 = f2(w2a!+w2! p+b?2) 


图 11-35 有 旁 路 (bypass) 连 接 的 两 层 网 络 
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E11.11 对 图 11-6 中 的 1-2-1 网 络 ， 写 一 个 实现 BP 算法 的 MATLAB 程序 。 初 始 权 
值 和 偏 置 值 设 为 均匀 分 布 于 -0.5 和 0.5 之 间 的 随机 数 ( 使 用 MATLAB 函数 
rand) ， 并 训练 网 络 使 之 逼近 函数 

glp) = 1 + sin( 7 p), -2<ps2 
使 用 几 个 不 同 的 初始 条 件 ， 试 验 几 个 不 同 的 学 习 速 率 o。 讨 论 算法 的 收敛 性 。 
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第 12 章 反 向 传播 算法 的 变形 


12.1 目的 


第 11 章 中 介绍 的 反 向 传播 算法 是 神经 网 络 研究 中 的 重大 进展 。 然 而 ， 基 本 的 算法 对 大 
多 实际 应 用 来 说 都 太 慢 了 。 本 章 将 介绍 一 些 反 向 传播 算法 的 变形 ， 能 显著 提高 速度 并 使 算法 
实用 化 。 

本 章 将 用 一 个 葡 数 近似 的 例子 来 集中 地 说 明 为 什么 反 向 传播 算法 很 慢 ， 闭 着 提供 一 些 算 
法 的 改进 。 这 里 需要 注意 反 向 传播 算法 是 一 个 近似 最 速 下 降 的 算法 。 第 9 EF, 我们 看 到 最 
速 下 降 是 一 个 最 简单 但 通常 是 最 慢 的 最 小 化 方法 。 共 箔 梯度 算法 和 牛顿 法 一 般 有 更 快 的 收敛 
速度 。 本 章 中 ， 将 解释 如 何 用 这 些 快速 的 方法 去 加 速 反 向 传播 的 收敛 速度 。 12-1 


12.2 理论 和 实例 


当 基本 的 反 向 传播 算法 应 用 于 实际 问题 时 ， 训 练 将 花 去 数 天 其 至 数 星期 的 机 时 。 这 引起 
了 对 提高 算法 收敛 速度 研究 的 极 大 热情 。 

快速 算法 的 研究 粗略 地 分 成 两 类 。 第 一 类 包括 那些 使 用 启发 式 信息 的 技术 ， 这 源 于 对 标 
准 反 向 传播 算法 特定 性 能 的 研究 。 这 些 启发 式 技术 包括 可 变 的 学 习 速 度 ， 使 用 动量 和 改变 比 
例 变 量 ( 例 如 [VoMa88], ‘Jacob88],[ Toll90] 和 [RiIr90])。 本 章 将 讨论 动量 的 使 用 和 可 变 的 
学 习 速 度 。 

另 一 类 研究 集中 在 标准 数值 优化 技术 (例如 [Shan90] ,[Barn92],[Batt92] 和 [Char92j)。 正 如 
第 10 和 11 章 讨 论 的 那样 ， 训 练 前 向 神经 网 络 减 小 均 方 误差 只 是 一 个 数值 优化 的 问题 。 由 于 数 
值 优化 做 为 一 个 重要 的 研究 课题 已 经 有 三 四 十 年 了 (参见 第 9 章 )， 因 而 从 大 量 已 有 的 数值 优化 
技术 中 选择 快速 训练 算法 是 比较 合理 的 。 除 非 绝 对 需要 ， 否 则 没有 必要 再 发 明 新 的 训练 算法 。 
本 章 将 介绍 两 个 成 功 的 应 用 于 多 层 感知 机 训练 的 算法 : HEREA AA Levenberg-Marquardt 算 
法 (牛顿 法 的 变形 )。 

SDBP 要 强调 的 是 本 章 中 描述 的 所 有 算法 都 使 用 了 反 向 传播 过 程 ， 所 有 的 导数 都 是 从 
网 络 的 最 后 一 层 处 理 到 网 络 的 第 一 层 。 因 此 ， 它 们 都 可 以 被 称 为 “ 反 向 传播 "算法 。 算 法 的 区 
别 在 于 用 结果 导数 来 修改 权 值 。 在 某 些 情况 下 ， 可 叹 的 是 我 们 平常 所 说 的 反 向 传播 算法 实际 
上 是 最 速 下 降 算法 。 为 了 明确 我 们 的 讨论 ， 在 本 章 的 其 余部 分 ， 称 基本 的 反 疝 传播 算法 为 最 


速 下 降 反 传 算法 (Steepest Descent Backpropagation, SDBP )。 
下 一 节 将 用 一 个 简单 的 例子 来 说 明 SDBP 在 收敛 方面 的 问题 。 接 着 在 随后 几 节 中 ,将 提 


供 不 同 的 过 程 去 提高 算法 的 收 伍 性 。 
12.2.1 BP 算法 的 缺点 


回忆 第 10 章 中 LMS 算法 在 学 习 速 度 不 大 时 能 保证 收敛 到 具有 最 小 均 方 误差 的 解 。 这 万 
由 于 对 单 层 线性 网 络 来 说 均 方 误差 是 一 个 二 次 函数 。 二 次 函数 只 有 一 个 驻 点 。 态 外， 二 次 曲 
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SDBP 是 LMS 算法 的 推广 。 与 LMS 类 似 ， 它 也 是 最 小 均 方 误差 的 近似 最 快 下 降 算 法 。 
实际 上 ， 在 使 用 单 层 线性 网 络 时 ，SDBP 等 价 于 LMS 算法 (请 见 例 题 P11.10)。 但 在 应 用 于 
多 层 网 络 时 ，SDBP 的 特性 完全 不 同 。 这 是 由 于 单 层 线性 网 络 和 多 层 非 线性 网 络 在 均 方 误差 
性 能 曲面 上 的 不 同 。 单 层 线性 网 络 的 均 方 误差 只 有 一 个 极 小 点 ， 并 具有 常数 曲率 。 但 是 多 层 
网 络 的 性 能 曲面 可 能 有 多 个 局 部 极 小 点 而 且 在 参数 空间 的 不 同 区 域 曲 率 也 是 变化 的 。 这 在 下 
面 的 例子 中 将 可 从 清楚 地 看 到 。 

1. 性 能 曲面 的 例子 

可 以 用 一 个 简单 的 函数 副 进 的 例子 来 说 明 多 层 网 络 的 均 方 误差 性 能 曲面 。 这 里 使 用 图 
12-1 中 所 示 的 1-2-1 网 络 ， 其 中 每 层 都 用 对 数 -S 形 传输 晒 数 。 

输入 对 数 SHE 对 数 -6 形 层 





a' = logsig(W'p+b') a? = logsig (W2a! +b?) 


图 12-1 1-2-1 pRB AT PS 
wT RL, SBT ER, i EY RAER E 
个 1-2-1 网 络 的 响应 ， 具 有 如 下 权 值 和 偏 置 值 : 


wi, = 10， w}, = 10, 
wi 1 一 i wia = Ls b? =-1 


网 络 对 这 些 参数 的 响应 如 图 12-2 所 示 ， 它 表示 当 输入 p 在 [ - 2，2j] 区 间 变 化 时 ， 输 出 
a? 的 图 形 。 


12-3 | 


bi =-5, bh =5 (12.1) 
(12.2) 


图 12-2 Fee PR 
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我 们 想 训 练 图 12-1 所 示 的 网 络 以 逼近 图 12-2 中 所 示 的 函数 。 当 网 络 参 数 被 设置 为 
(12.1) 和 (12.,2) 式 中 的 值 时 ， 通 近 是 精确 的 。 自 然 这 是 一 个 非常 不 自然 的 问题 ,但 它 很 简单 
并 能 说 明 一 些 重 要 的 概念 。 

现在 来 考虑 问题 的 性 能 指数 。 假 设 函 数 在 下 述 值 锌 采样 : 

=—2, -1.9,-1.8,…,1.9,2 (12.3) 

并 且 每 一 个 都 以 相同 的 概率 发 生 。 人 性 能 指数 是 这 41 个 点 的 平方 误差 之 和 。( 不 必 担 心 求 均 方 
误差 ， 它 可 以 通过 除 以 41 783], ) 

为 了 作出 性 能 指数 图 ， 每 次 只 变化 两 个 参数 。 图 12-3 显示 仅 当 改变 wif wi WAM 
其 他 参数 都 设置 成 式 (12.1) 和 (12.2) 中 给 出 的 优化 值 时 的 平方 误差。 注意 最 小 的 误差 是 0， 
CARE wi, =10M wi, =1 时 ， 如 图 中 小 圆圈 所 示 。 12-4 





图 12-3 wi) Fl wt,1 的 平方 误差 曲面 


注意 该 误差 曲面 中 的 若 于 特征 。 首 先 ， 它 明显 不 是 一 个 二 次 函数 ， 曲 率 在 参数 空间 中 
的 变化 很 大 。 因 此 ， 难 以 为 最 速 下 降 算法 选择 一 个 合适 的 学 习 速 度 。 在 一 些 区 域 曲 面 非常 平 
坦 ， 这 需要 一 个 大 的 学 习 速 度 ， 同 时 在 其 他 区 域 曲 率 很 高 ， 这 和 需要 一 个 小 的 学 习 速 度 。( 参 
考 第 9 章 和 第 10 章 关 于 最 速 下 降 算 法 的 学 习 速 度 选择 的 讨论 ,) 

需要 注意 的 是 ， 在 给 定 了 网 络 的 S$ 形 传输 函数 时 ， 平 坦 的 性 能 曲面 区 域 并 不 是 意料 之 外 
的 ，S 形 函数 对 大 的 输入 是 非常 平坦 的 。 

该 误差 曲面 图 的 另 一 个 特征 是 存在 多 个 局 部 极 小 点 。 沿 着 平行 于 wi 1 轴 的 谷 , 在 
wi, = 10 和 w? =1 有 全 局 极 小 。 然 而 在 沿 着 平行 于 w1: 轴 的 谷 也 有 一 个 局 部 极 小 点 (该 局 
部 极 小 点 的 位 置 是 wj ;=0.88 w?.1 = 38.6)。 下 一 节 中 将 研究 该 曲面 上 反 疝 传播 算法 的 性 
能 。 

图 12-4 指出 了 当 其 他 参数 设置 为 优化 值 时 ，wi,!1 和 bi 变化 时 的 平方 误差 。 注 意 ; 最 小 
误差 是 0， 出 现在 wj 1=10 和 6b1= -5 时 ， 由 图 中 小 圆圈 表示 。 

可 以 发 现 曲面 具有 非常 扭曲 的 形状 : 在 一 些 区 域 很 变 ， 在 另 一 些 区 域 很 平坦 。 用 标准 
的 最 速 下 降 算 法 处 理 这 个 曲面 时 必定 会 碰 到 困难 。 例 如 ， 如 果 以 wi, =0, bi = -10 作 为 初 | 12.5 
始 值 ， 梯 度 接近 于 0， 即使 是 没有 靠近 局 部 极 小 点 ， 最 速 下 降 算 法 此 时 也 将 停 济 。 

图 12-5 指出 了 当 其 他 参数 设置 到 它们 的 优化 值 而 5! 和 b 变化 时 的 平方 误差 。 在 b1 = 
-5, b} =5 时 达到 最 小 误差 (如 图 中 小 圆圈 所 示 )。 
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图 12-5 bi M bh WEARER OD 


该 曲面 显示 了 多 层 网 络 的 一 个 重要 特性 : 它们 具有 对 称 性 。 这 里 我 们 看 到 有 两 个 局 部 
极 小 点 ， 它 们 都 有 相同 的 平方 误差 值 。 第 二 个 解 对 应 于 相同 网 络 的 上 下 翻转 (即将 第 一 层 神 
经 元 顶层 的 神经 元 与 底层 的 神经 元 对 换 )。 这 是 由 于 没有 把 初始 权 值 和 偏 置 值 设 成 0 的 神经 
网 络 特征 。 对 称 性 使 0 成 为 了 性 能 曲面 的 一 个 鞍点 。 
对 多 层 网 络 性 能 曲面 的 简单 研究 给 出 了 一 些 如 何 设 置 SDBP 算法 初始 参数 的 暗示 。 首 
Se, 不 能 把 初始 参数 设置 为 0。 这 是 由 于 对 性 能 曲面 来 说 ， 参 数 空间 的 原点 趋同 带 点。 其 
次 ， 不 能 把 初始 参数 设置 过 大 。 这 是 由 于 在 远离 优化 点 的 位 置 ， 性 能 曲面 将 变 得 十 分 平坦 。 
典型 情况 下 ， 可 以 选择 一 些小 的 随机 值 作 为 初始 权 值 和 偏 置 但 。 这 样 我 们 可 以 在 不 离开 
性 能 曲面 平坦 区 域 的 同时 避 开 可 能 的 鞍点 。( 画 外 一 种 选择 初始 但 的 方式 在 | Ng Wi90 ] PGR 
(126) 述 .) 正 如 下 节 将 看 到 的 ， 可 以 选择 多 个 不 同 的 初始 值 以 确保 算法 收敛 到 全 局 极 小 点 。 
2. 收敛 性 举例 
HAMS ”前 面 已 经 研究 过 性 能 曲面 ， 现 在 来 看 SDBP 算法 的 性 能 。 本 方 将 使 用 一 个 称 为 
批 处 理 的 标准 算法 的 变种 。 在 此 方法 中 ， 当 整个 训练 集 都 出 现 后 网 络 参数 才 会 更 新 。 每 个 训 
练 例子 的 梯度 被 平均 在 一 起 ， 以 获得 更 精确 的 梯度 估计 。( 如 果 训 练 集 是 完备 的 ， 即 包括 了 
所 有 可 能 的 输入 /输出 对 ， 则 梯度 的 估计 是 精确 的 。) 
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图 12-6 中 ， 我 们 可 以 看 到 SDBP( 批 处 理 模 式 ) 算 法 在 仅 调 整 参 数 wi Fl wt NAAR 
轨迹 。 其 中 初始 条 件 被 标记 为 “a” 的 轨迹 中 ， 算 法 最 终 收敛 到 优化 的 解 ， 但 收 钱 的 速度 很 慢 。 
原因 是 曲面 在 轨迹 路 径 上 存在 曲率 变化 。 在 经 过 初始 化 时 的 中 等 斜率 后 ， 轨 迹 通 过 一 个 非常 
平坦 的 曲面 区 域 ， 直 到 它 落 和 人 一 个 斜 度 很 平缓 的 谷中 。 如 果 提 高 学 习 速 度 ， 算 法 将 通过 初始 
的 平坦 曲面 而 快速 收敛 。 但 正如 稍 后 所 见 的 ， 它 在 落 人 谷 后 将 变 得 不 稳定 。 

轨迹 “b” 显示 了 算法 如 何 收 僵 到 局 部 极 小 点 。 轨 和 迹 陷 入 一 个 谷中 并 且 偏 离 了 优化 解 。 如 
果 人 允许 继续 的 话 ， 轨 迹 将 收敛 到 wl1 | =0.88，w?1 = 38.6。 多 个 局 部 极 小 点 的 存在 是 多 层 
网 络 性 能 曲面 的 典型 特征 。 因 此 ， 最 好 是 选择 多 个 初始 点 ， 以 保证 得 到 全 局 极 小 点 。( 如 图 
12-5 所 示 ， 一 些 局 部 极 小 点 有 相同 的 均 方 误差 。 所 以 ,不 能 期 望 对 每 组 初始 值 都 能 收 征 到 
相间 的 参数 值 ， 只 能 期 待 获得 同样 的 最 小 误差 )。 


12-7 





图 12-6 两 个 SDBP 算法 ( 批 处 理 方式 ) 的 轨迹 


算法 的 进展 过 程 如 图 12-7 所 示 。 图 中 表示 了 过 代 次 及 和 均 方 误差 的 关系 。 左 边 的 曲线 
对 应 于 轨迹 a” 右边 的 曲线 对 应 于 轨迹 “b”。 这 些 曲 线 是 典型 的 SDBP， 具 有 长 时 间 的 慢 进 展 
各 短 时 间 的 快 进展 。 


2 6 
1.5 
4 
1 
2 
0.5 
0 0 
10° 10° 10° 10° 10' 10° 10° 


迭代 次 数 选 代 次 数 


图 12-7 均 方 误差 收 钙 模式 


可 以 看 出 图 12-7 中 的 平坦 区 域 对 应 于 算法 通过 图 12-6 中 性 能 曲面 平坦 区 域 的 次 数 。 在 
这 些 区 域 中 应 该 增加 学 习 速 度 从 提高 收敛 速度 。 然 而 ， 如 果 在 算法 达到 性 能 曲面 中 较 陡 峭 的 
部 分 中 时 增加 算法 的 学 习 速 度 将 使 它 变 得 不 稳定 。 

学 习 速 度 的 影响 在 图 12-8 中 表示 。 该 轨迹 对 应 于 图 12-6 中 的 轨迹 “a”， 只 是 学 习 速 度 较 
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高 。 算 法 一 开始 收敛 得 很 快 ， 但 是 当 轨 迹 到 达 包 含 极 小 点 的 窦 谷 时 ， 算 法 开始 发 散 。 这 意味 
12-8) 着 改变 学 习 速度 是 非常 有 效 的 。 我 们 可 以 在 平坦 曲面 时 增加 学 习 速度 ， 在 斜率 增加 时 减少 学 
习 速 度 。 问 题 是 :“ 自 法 怎么 类 着 何 时 在 平坦 的 曲面 上 呢 ? 我 们 将 在 稍 后 讨论 这 个 问题 。 





图 12-8 ”学 习 速 度 过 大 时 的 轨迹 


提高 收敛 性 的 男 一 种 方法 是 平滑 轨迹 。 注 意 在 图 12-8 中 ， 当 算法 开始 发 散 时 ， 它 在 罕 
谷 来 回 振荡 。 如 果 我 们 用 平均 改变 参数 的 方法 过 滤 轨 迹 ， 这 样 可 以 平 谓 掉 振荡 并 产生 一 个 稳 
定 的 轨迹 。 将 在 下 节 中 讨论 该 过 程 。 
试验 这 个 反 向 传播 的 例子 请 用 Neural Network Design Demonstration Steepest 
Descent Backpropagation (nnd12sd) 。 





12.2.2 BP 算法 的 启发 式 改进 


现在 我 们 已 经 考察 了 反 向 传播 (最 速 下 降 算 法 ) 的 一 些 缺 点 ， 让 我 们 :考虑 一 些 改进 算法 的 
方法 。 本 节 中 ， 将 讨论 两 种 启发 式 方 法 。 下 节 将 提供 两 种 基于 标准 数值 优化 算法 的 方法 。 
1. 动量 方法 
第 一 种 方法 是 使 用 动量 。 这 种 改进 是 基于 在 上 节 中 的 观察 : 如果 能 平滑 轨迹 中 的 振荡 将 
能 提高 收敛 性 能 。 可 以 用 一 个 低 通 滤 帮 来 实现 它 。 
在 将 动量 应 用 于 神经 网 络 应 用 之 前 ， 首 先 考虑 一 个 平滑 效果 的 简单 例子 。 下 面 是 一 阶 滤 
.12.9， 波 器 : 


y(k) = yy(k - 1) +(1~y)wlk) (12.4) 
其 中 w (%) 是 滤波 器 输入 ，y( 上 ) 是 滤波 器 输 出 ，y 是 动量 系数 ， 满 足 
| O<¥<1 (12.5) 
滤波 器 的 效果 如 图 12-9 所 示 。 对 这 个 例子 滤波 器 输入 取 成 正弦 波 : 
wlk) = 1+ sin( =} (12.6) 


左 图 中 动量 系数 y 被 设 为 0.9 而 右 图 中 y 被 设 为 0.98。 这 里 可 以 看 到 滤波 秀和 输出 的 振 汤 低 
于 滤波 器 输入 的 振荡 (正如 我 们 对 低 通 滤波 器 的 希望 ) 。 另 外 ， 当 Y 增 加 时 ， 滤 流 句 输出 的 振 
荡 减 少 。 也 要 注意 平均 滤波 器 输出 与 平均 滤波 器 输入 相同 ， 虽 然 当 ?y RAR, DE a 
出 的 反应 变 慢 。 | 


ww aibbt.com TO 00000 


IÈ KREBIL AHI EH 233 


n n 


a) y = 0.9 b) y = 0.98 


图 12-9 动量 的 平滑 效应 


之 ， 滤 波 器 有 助 于 减少 振 葛 的 数目 ， 同 时 仍然 保持 平均 值 。 现 在 ， 来 看 怎样 把 这 种 
方法 用 于 神经 网 络 。 首 先 ， 回 忆 SDBP( 式 (11.46) 和 (11.47)) 的 参数 更 新 为 


AW™(k) = - as” (a™-})T (12.7) 

Ab” (k) =- as” (12.8) 

动量 MOBP 当 动 量 滤 波 器 加 到 参数 的 改变 后 ， 得 到 了 和 下 述 反 办 传播 的 动量 改进 
(MOBP) 公 式 : | 

AW"(k) = yYAW"(k - 1) - (1 - Y)as” (a”-!)f (12.9) 

Ab”™(k) = yAb™(k -1)- (1 - y)as” (12.10) 


如 果 将 这 些 改进 后 的 公式 用 于 上 节 的 例子 中 ， 可 以 得 到 图 12-10 中 所 示 的 结果 。( 本 例 
中 使 用 了 MOBP 的 批 处 理 形 式 ， 即 在 整个 训练 集 出 现 以 后 参数 才 被 更 新 。 每 个 训练 样本 的 
梯度 计算 之 和 被 平均 在 一 起 以 达到 更 精确 的 梯度 估计 ,) 这 个 轨迹 对 应 于 图 12-8 中 同样 的 初 
始 条 件 和 学 习 速 度 ， 不 同 的 是 动量 系数 Y=0.8。 可 以 看 到 算法 现在 是 稳定 的 。 由 于 使 用 了 
动量 项 ， 可 以 在 维持 算法 稳定 前 提 下 使 用 更 高 的 学 习 速 度 。 动 量 的 另 一 个 特征 是 当 轨 迹 进 人 
某 个 一 致 的 方向 后 ， 它 可 以 加 速 收 伍 。 


JL 平方 误差 
JS = 


le ion isa 





ce 


图 12-10 ”带动 量 时 的 轨迹 
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如 有 果 你 仔细 观察 图 12-10， 可 以 发 现 该 方法 为 什么 用 动量 这 个 词 。 它 总 是 试图 保持 轨迹 
于 同一 方向 。 当 Y 越 大 的 时 候 ， 轨 迹 的 “动量 ” 越 强 。 
EA 试验 动量 请 用 Neural Network Design Demonstration Momentum Backpropagation 
= (nnd12mo). 





2. 可 变 的 学 习 速 度 
在 本 章 的 前 一 部 分 曾 建议 为 了 提高 收敛 速度 ， 可 以 在 较 平 坦 的 曲面 提高 学 习 速 度 ， 而 在 
斜率 增 大 时 减 小 学 习 速 度 。 本 节 中 将 尝试 这 个 方法 。 
前 面 曾 指出 单 层 线 性 网 络 的 均 方 误差 性 能 曲面 总 是 一 个 二 次 函数 ， 且 赫 森 矩阵 是 常数 
的 ， 最 速 下 降 算 法 的 最 大 稳定 学 习 速 度 是 2 除 以 赫 森 矩阵 的 最 大 特征 值 ( 见 (9.25) 式 )。 
正如 我 们 所 见 的 ， 多 层 网 络 的 误差 曲面 不 是 二 次 函数 。 曲 面 的 形状 随 参 数 空间 区 域 的 不 
同 而 不 同 。 也 许可 以 在 学 习 过 程 中 通过 调整 学 习 速 度 来 提高 收敛 速度 。 技 巧 是 决定 何 时 改变 
学 习 速 度 和 怎样 改变 学 习 速 度 。 
可 变 学 习 速 度 的 VLBP 有 许多 不 同 的 方法 来 改变 学 习 速 度 。 这 里 介绍 一 种 非常 直观 的 
批 处 理 过 程 [VoMa88j， 它 的 学 习 速 度 是 根据 算法 的 性 能 改变 的 。 可 变 学 习 还 度 反 向 传播 莫 
法 (variable learing rate backpropagation, VLBP) 的 规则 如 下 ， 
1) 如 果 均 方 误差 (在 整个 训练 集 上 ) 权 什 在 更 新 后 增加 了 ， 且 超过 了 某 个 设置 的 百分数 《 
(HHHK 1%25%), WDE RRR, SURE RRU— TAF o(0 < po< 1)， 
并 且 动 量 系数 Y( 如 果 有 的 话 ) 被 设置 为 0。 
2) 如 果 平 方 误 差 在 权 值 更 新 后 减少 ， 则 权 值 更 新 被 接受 ， 而 且 学 习 速 度 将 被 乘 以 一 个 
因子 n> 1。 如 果 Y 被 设置 为 0， 则 恢复 到 以 前 的 值 。 
3) 如 果 平 方 误差 的 增长 小 于 【， 则 权 值 更 新 被 接受 ， 但 学 习 速 度 保持 不 变 。 如 果 y 过 去 
被 设置 为 0， 则 恢复 到 以 前 的 值 。 
(关于 VLBP 的 数值 例子 请 见 例题 P12.3。) 
为 了 说 明 VLBP， 让 我 们 将 它 应 用 于 前 节 的 函数 返 近 问题 中 。 图 12-11 显示 了 算法 的 轨 
迹 ， 其 中 的 初始 条 件 、 初 始 学 习 速 度 和 动量 系数 与 图 12-10 所 用 的 相同 。 新 参数 的 设置 为 : 
n= 1.05, C= Uei C = 4% | (12.11) 





图 12-11 WISE BE ADL 
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12-12 中 也 可 以 看 出 。 图 12-12 指出 了 平方 误差 和 学 习 速 度 与 选 代 次 数 之 间 的 关系 。 

当 轨迹 进入 一 个 罕 谷 时 ， 学 习 速 度 迅速 递 碱 。 否 则 轨迹 将 产生 振荡 ， 并 使 误差 迅速 增 
加 。 在 每 步 增加 超过 4 色 .的 误差 当中 ， 学 习 速 度 减 少 而 且 动 量 项 筱 消除 ， 这 样 使 轨迹 可 以 迅 
速 转向 沿 罕 谷 到 极 小 点 的 方向 。 接 着 学 习 速 度 继续 增加 以 加 速 收 伍 。 当 轨迹 超过 极 小 点 时 学 
习 速 度 再 次 下 降 ， 此 时 算法 已 经 基本 收 伍 。 这 个 过 程 是 典型 的 VLBP 轨迹 。 


1.5 





平方 误差 
1 
0.5 
0 0 
10° 10' 10° 10° 10° 10’ 10° 10° 
Iteration Number Iteration Number 


图 12-12 VLBP 的 收敛 特征 


有 许多 关于 可 变 学 习 速 度 算法 的 变型 。Jacobs[ Jaco88] 提 出 了 delta-bar-delta 学 习 规 则 ， 
其 中 每 一 个 网 络 参数 ( 权 值 和 偏 置 值 ) 都 有 自己 的 学 习 速 度 。 如 果 某 个 参数 在 儿 次 碗 代 中 部 并 
同一 方向 变化 ， 算 法 则 增加 网 络 参数 的 学 习 速 度 。 如 果 参 数 的 改变 方 同 发 生变 化 ， 则 竺 习 速 
度 递减 。Tollenaere[ Toll90] 的 SuperSAB 算法 与 delta-bar-delta 规则 类 似 ， 但 它 在 改变 学 习 速 
度 的 规则 方面 更 加 复杂 。 

另 一 种 对 SDBP 的 启发 式 变型 是 Fahlman| Fahl 88] 的 Quickprop 算法 。 它 假设 误差 曲面 
是 抛物 面 且 在 极 小 点 附近 是 向 上 四 的 ， 另 外 每 个 参数 的 影响 钙 认 为 是 相互 独立 的 (参见 19 章 
给 出 的 其 他 SDBP 改进 方法 )。 

对 SDBP 进行 启发 式 改 进 对 菜 些 问题 会 提高 收敛 速度 。 但 这 些 方法 有 两 个 主要 缺 挟 : 前 
先 这 些 改进 需要 设置 一 些 参数 (例如 %，op 和 YY)， 而 SDBP 只 需要 一 个 学 习 速度 参数 。 茶 些 更 
复杂 的 启发 式 改 进 需 要 设置 五 六 个 参数 。 算 法 的 性 能 对 这 些 参 数 的 改变 往往 十 分 敏感 。 参 数 
的 选择 还 是 问题 相关 的 。 这 些 对 SDBP 的 改进 的 第 二 个 缺点 是 它们 对 某 些 SDBP 最 终 能 找到 
解 的 问题 却 不 能 收敛 。 应 用 越 复杂 的 算法 这 些 问题 越 容 易 发 生 。 
实验 VLBP 请 用 Neural Network Design Demonstration Variable Leaming Rate 
Backpropagation (nnd12v1) 。 





12.2.3 数值 优化 技术 


我 们 已 经 研究 了 一 些 用 启发 式 方法 改进 SDBP 的 算法 ， 现 在 来 考虑 一 些 基 于 标准 数值 优 

化 技术 的 方法 。 这 里 将 考察 两 种 技术 : JEST PR EPA A Levenberg-Marquardt 方法 。 二 次 函数 

的 共 斩 梯 度 法 在 第 9 章 中 已 经 介绍 过 了 。 我们 要 为 该 算法 增加 两 个 过 程 以 遂 应 更 一 般 的 也 

Z- 

本 章 中 讨论 的 第 二 种 数值 优化 方法 是 Levenberg-Marquardt 算法 ， 它 是 牛顿 法 的 一 个 改 
进 并 且 非 常 适合 于 神经 网 络 训练 。 
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CGBP 第 9 章 中 介绍 了 3 种 数值 优化 技术 : RETER, HRSA ERK. BR 
PRE RA SNR, (ACE. FMR RES, HERAT ARERR NE. 
FURR RPE: 它 不 需要 计算 二 次 导数 ,但 仍然 具有 二 次 收敛 的 特性 ( 它 在 有 限 次 
迭代 后 能 收敛 于 到 二 次 函数 的 极 小 点 )。 本 厄 将 介绍 怎样 将 共 轿 梯度 法 应 用 于 训练 多 层 网 络 。 
我 们 称 这 种 方法 为 共 斩 梯 度 反 向 传播 萌 法 (conjugate gradient backpropagation, CGBP). 

LETS CBSA. ATS BL, RMB RHR R. 

1) 选择 初始 搜索 方向 p 为 梯度 的 反 向 量 ， 如 式 (9.59): 











Po =- £0 (12.12) 
其 中 
gi = VE(X)| x=x, (12.13) 
2) 根据 式 (9.57) 取 一 步 ， 选 择 学 习 速 度 w ， 党 搜索 方向 最 小 化 函数 : 
Xk+1 = X; + QP, (12.14) 
3) 根据 式 (9.60) 选 择 下 一 个 搜索 方向 ， 利 用 式 (9.61)，(9.62) 和 (9.63) 计 算 B: 
Pi =- g, + BiP (12.15) 
iii Ag; 8: gig Ag, iB: 
k 一 —— p = 一 i 或 有 = — (12.16) 
Ag, _ Py: £.-18%-1 &;-18:-1 


4) 如 果 算 法 不 收敛 ， 继 续 第 2 步 。 

这 样 的 共 扼 梯度 算法 不 能 直接 应 用 于 神经 网 络 训 练 ， 因 为 性 能 指数 不 是 二 次 的 。 这 在 两 
个 方面 影响 算法 。 首 先 ， 不 能 用 式 (9.31) 沿 直线 最 小 化 函数 (这 是 第 2 步 所 需 的 )。 其 次 通常 
不 能 在 有 限 步 内 得 到 精确 的 最 小 值 ， 因 此 算法 在 迭代 过 若干 次 之 后 需要 重新 设置 。 

首先 来 看 线性 搜索 。 需 要 一 个 一 般 的 过 程 去 确定 函数 在 某 个 特定 方 问 的 极 值 。 这 包括 两 
步 : 区 间 定 位 和 区 间 缩 小 。 区 间 定 位 步 的 目的 是 找 某 个 包含 局 部 极 小 点 的 初始 区 间 。 区 间 缩 
小 步 接着 将 缩小 初始 区 间 直 到 满足 一 定 精度 的 极 小 点 被 定位 。 

区 间 定 位 ”我 们 使 用 一 种 函数 比较 方法 [Scal8$] 去 处 理 区 间 定 位 ， 这 一 步 如 图 12-3 所 
示 。 一 开始 计算 某 个 初始 点 的 性 能 指数 ， 由 图 中 a 表示 。 该 点 表示 网 络 权 值 和 偏 置 值 的 当 
前 值 。 按 句 话 说， 我 们 是 在 计算 

F(X) (12.17) 


下 一 步 是 计算 第 二 点 的 函数 值 ， 由 图 中 51 AR, CRM Aa E e 且 沿 初始 搜索 
方向 pp。 换 句 话说 ， 我 们 是 在 计算 
F(X + €p) (12.18) 
继续 计算 新 点 b 的 性 能 指数 (点 之 间 的 距离 依次 增加 一 倍 )。 这 一 过 程 直 到 连续 两 次 计 
算 的 孙 数 值 增 加 时 结束 。 这 在 图 12-13 PAP ba, b, 表示 。 此 时 可 以 知道 极 小 点 是 在 as M bs 
之 间 。 不 能 将 区 间 缩 得 更 小 ， 这 是 因为 极 小 值 可 能 在 [a4，6b4j 之 间或 在 [La3，653j] 之 间 。 这 
两 种 可 能 的 情况 如 图 12-14(a) 所 示 。 | 
区 间 缩 小 ”现在 已 经 定位 了 包含 极 小 点 的 区 间 ， 线 性 搜索 的 下 一 步 是 区 间 缩 小 ， 人 它 将 包 
括 计算 区 间 [ es，05] 内 点 的 函数 值 ，[ cs，05] 是 由 区 间 定 位 步 得 到 的 。 从 图 12-14 中 可 以 看 
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F(x) 
Be 
4e 
Ac oe 
NL . 
Qy— 97 
ag— be 
G3 bs 

a, b, 
as bs 


图 12-13” 区间 定位 


出 至 少 必 须 计算 两 个 内 部 点 的 函数 值 以 减少 不 确定 区 间 的 扩 寸 。 图 12-14(a) 洗 出 一 个 区 间 的 

函数 值 计 算 不 能 提供 极 小 点 定位 的 任何 信息 。 但 是 ， 如 果 计 算 了 两 个 点 ec Hd (RUA 12-14 

(b)) ， 可 以 缩小 不 确定 的 区 间 。 如 果 F(c) > F(d) (08 12-14(b) 所 示 )， 则 极 小 点 必定 在 
[ec， 妇 区 间 内 。 反 之 ， 如 果 F(c)< Fld), Wh)R#l oe, d | KAA. GER, BREVI 

始 区 间 中 只 有 一 个 极 小 点 。 后 面 要 作 进 一 步 讨论 。) 





a C d b 
(a) 不 缩小 区 间 (b) 极 小 点 必须 出 现在 cS 5 之 间 


图 12-14 减少 不 确定 区 间 的 大 小 


黄金 分 割 搜 索 上 述 过 程 描 述 了 减少 不 确定 区 间 尺 寸 的 方法 。 现 在 需要 确定 如 何 找 到 
内 部 点 c 点 d 位 置 的 方法 。 有 一 些 方法 能 实现 它 ( 见 [Scal85j)。 我 们 使 用 一 种 称 为 黄金 分 害 
搜索 的 方法 ， 它 可 以 减少 函数 计算 的 次 数 。 每 次 迭代 只 需要 计算 一 次 函数 值 。 例 如 ， 在 图 
12-14(b) 的 例子 中 ， 点 a 可 以 丢弃 而 点 ec 成 为 外 部 点 。 于 是 一 个 新 的 点 c 将 在 原来 的 点 c 和 
点 d 之 间 。 技 巧 是 放置 新 的 点 以 便 尽 快 减 少 不 确 定性 区 间 。 
黄金 分 割 搜索 算法 如 下 所 示 | Scal85]: 
r=0.618 
set ci=a; +(1-r)(bi- ai), F= Fel) 
d, = b,-(1-17)(b,- a), F4 = F(d;) 
for k=1, 2,... repeat 
If F, < Fy then 
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set G41 = ak; Ope, = ys Aen, = Ch 
Cha 1 = Gee, t+ (lo r)C bki- G41) 
F= F.; Fo = FCegs1) 


else 


— 
kJ 
L] 
~] 


set ap) = Cys bpi = bpy Choy = dy 
dig = br1— (i— 7) bri— Ghar) 
F.= Fa; Fa= F( di 41) 
end 
end until 6.,, — a}, < tol 
其 中 tol 是 用 户 给 定 的 精度 上 限 。( 关 于 区 间 定 位 和 区 间 缩 小 过 程 的 数值 例子 请 见 例题 
P12.4,) 
SPIGA MATHAM AVA, AA THT REO. HOKAR AKESE 
n 次 迭代 AREA, RP n 是 被 优化 的 参数 数目 。 由 于 多 层 网 络 的 平方 误差 性 能 指 
数 不 是 二 次 函数 ， 所 以 算法 一 般 不 能 在 n 次 迭代 内 收 僵 。 共 轿 梯 度 法 的 发 展 并 不 意味 着 在 
同一 搜索 方向 下 包含 n 次 迭代 过 程 的 一 个 周期 就 可 以 结束 。 这 可 能 有 多 个 过 程 ， 但 最 简单 
的 方法 是 在 n 次 迭代 之 后 将 搜索 方向 重新 设置 为 最 速 的 下 降 方 向 [ Sceal 85 ]。 我 们 将 使 用 这 
FRE 
KERR TUE FE GE EMH F e WAAR A BRT ISP RAITH 
用 反 向 传播 算法 计算 梯度 (用 式 (11.23) 和 (11.24))， 并 用 共 扼 梯度 法 决定 权 值 的 更 新 。 这 里 
RAH, EERE TARA ASM ATR. 
12-15 显示 了 CGBP 算法 在 三 次 迭代 后 的 中 间 步 。 区 间 定 位 过 程 由 小 空心 殴 圈 表示 ; 
每 一 个 点 表示 一 次 函数 的 计算 ， 最 终 区 间 由 较 大 的 空心 圆圈 表示 ， 图 12-15 中 的 小 黑 点 表示 
用 黄金 分 割 搜索 的 新 的 内 部 点 ， 每 一 个 对 应 于 一 次 迭代 过 程 。 最 终点 是 由 大 黑 上 总 表示 。 





图 12-15 CGBP 的 中 间 步 又 


图 12-16 表示 收敛 的 整个 轨迹 。 注 意 ，CGBP 算法 要 比 我 们 试 过 的 所 有 其 他 算法 都 少 的 

迭代 次 数 收敛 。 这 有 一 点 欺骗 性 ， 因 为 CGBP 的 每 次 从 代 较 其 他 方法 需要 更 多 的 计算 ; 在 

CGBP 的 每 次 迭代 中 包括 了 多 次 函数 计算 。 即 使 如 此 ，CBGP 算法 也 是 多 层 网 络 批 处 理 训 绕 
12-18) 算法 中 最 快速 的 方法 之 一 [Char92]。 
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图 12-16 step EE AIE 


LEA 试验 CGBP 请 用 Neural Network Design Demonstration Conjugate Gradient Line 
SSA Search(nnd12Is) #¢ Conjugate Gradient Backpropagation(nnd12cg) - 





2. Levenberg- Marquardt 算法 
Levenberg- Marquardt BRERA EE, AMARIEI EE A R ERE RREA 


和 的 函数 。 这 非常 适合 于 性 能 指数 是 均 方 误差 的 神经 网 络 训练 。 


基本 算法 
让 我 们 从 考虑 性 能 指数 是 一 组 平方 和 的 牛顿 方法 的 形式 开始 。 由 第 9 章 知 ， 优 化 性 能 指 


数 F(x) 的 牛顿 方法 是 
Xpa1 = X; — A; g, (12.19) 
其 中 A, =V°F(x)|x=x_; g, =VF(x)|x=x o 
雅 可 比 和 矩阵 ORR F(x) ERA, R 


F(x) = 之 /73(x) = v (x)v(x) (12.20) 
那么 第 j 个 梯度 分 量 为 
(VF(x)]; = FM 22>) wz ww) (12.21) 
因此 梯度 可 以 写成 矩阵 形式 : 
VF(x) = 2J (x)v(x) (12.22) 
其 中 | 
avi(x) v(x) Avy (x) 
DX] d x) A xX, 
J(x) =| “xi 9 x2 9 xn (12,23) 
Jvy(X) Ivy (xX) Avy (xX) 


dX] d xa o EP 
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J-x Aje T bee. 
TERMAR. PERNA k, | 元 素 为 
[A F(x) | _ FFX) _ or iCX) 2v;lx) + v(x iS 7 FA (12.24) 





CA IX,IX, d Xy OX xð x 
赫 森 矩阵 于 是 可 以 表示 为 
V? F(x) = 2J]'(x)J(x) + 2S(x) (12.25) 
其 中 
S(x) = > v(x) V9, (x) (12.26) 
如 果 假 设 S(x) 很 小 , 可 以 将 赫 森 矩阵 近似 表示 为 
VIF(x) = 2 (x)J(x) (12.27) 


高 斯 -牛顿 方法 将 (12.27) 式 和 (12,22) 式 代入 (12.19) 式 ， 可 以 得 到 高 斯 -牛顿 方法 : 
Kit! = Xy - [2] (x )ICx,) 171257 (x)v(x) 
= x, — [J (x,)J(x,) 1-13" (x) v(x) (12.28) 
注意 高 斯 -牛顿 方法 较 标准 牛顿 法 的 优点 是 不 需 计算 二 阶 导 数 。 
高 斯 -牛顿 方法 的 一 个 问题 是 矩阵 再 = J7J 可 能 不 可 逆 。 这 可 以 用 下 述 近 似 赫 森 和 矩 阵 改 


进 : 
G = H+ ul (12.29) 
为 看 出 这 个 矩阵 是 可 逆 的 ， 设 再 的 特征 值 和 特征 向 量 为 | Ant Miz, z 
z, | WA 
= (H+ plz; = Hz; + uz; = Azz; + uz; = (A; + dz; (12.30) 


因此 G MAEM BS HAE Bl, E G 的 特征 值 为 \; + u 。 对 所 有 i;， 增 加 以 保证 
和 ; + 人 > 0， 可 使 G 成 为 正定 的 ， 所 以 抢 阵 可 逆 。 
Levenberg-Marquardt 算法 ”由 此 可 导出 Levenberg-Marquardt 工法 [Scal85 ] : 
Xi = Xy — [J Cx,)JCx,) + wT) I" (x)v(x) (12.31) 
或 
Ax, = — [J (x xr) + uE] J (x) v(x ) (12.32) 
这 个 算法 的 一 个 非常 有 用 的 特点 是 : 当 pi 增加 时 ， 它 接近 于 有 小 的 学 习 速 度 的 最 速 下 
降 算 法 : 
Xk+l1 = X; 一 JTO) = X; 一 F VF (x) ,对 于 大 的 ] 1 (12.33) 


当心 下降 到 0 的 时 候 ， 算 法 变 成 了 高 斯 -牛顿 方法 。 

算法 开始 时 p, 取 小 值 (例如 u, = 0.01)。 如 果 某 一 步 不 能 减少 F(x) 值 ， 则 将 u, 乘 以 一 
个 因子 9> 1( 例 如 909=1.0) 后 青 重复 这 一 步 。 最 后 (x) 会 下 降 ， 因 为 使 用 最 速 下 降 方 向 的 一 
小 步 。 如 果菜 一 步 产 生 了 于 小 的 F(x)， 则 4 在 下 一 步 被 除 以 8， 这 样 算法 就 接近 于 高 斯 - 牛 
顿 方法 ， 该 方法 能 提高 收敛 速度 。 这 个 算法 提供 牛顿 法 的 速度 和 保证 收 钱 的 最 速 下 
降 法 之 间 的 一 个 折衷。 

现在 来 看 如 何 将 Levenberg- Marquardt 算 法 应 用 于 多 层 网 络 训练 问题 。 多 层 网 络 训练 的 
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TERETE BOE SH ik z (WA 11.11)). SURF Bo BR a, ee ILE E 
于 训练 集中 下 述 所 有 0 个 目标 的 平方 误差 之 和 : 
F(x) = mK —a,)‘(t, - a,) 


gz=l 


Se e, = Se, a = > (Wy (12.34) 


EP e, ,是 第 gq 个 输入 /目标 对 的 误差 的 第 J 项 元 素 。 

式 (12. 34) 等 价 于 性 能 指数 式 (12. 20) Levenberg- Marquardt 方法 )。 所 以 ， 为 网 络 训练 
调整 算法 将 是 很 直观 的 。 结 果 表 明 这 在 概念 上 是 正确 的 ， 但 在 细节 上 要 加 以 注意 。 

雅 可 比 计 算 

Levenberg- Marquardt 算法 中 的 关键 一 步 是 雅 可 比 和 矩阵 的 计算 。 用 一 种 BP 算法 的 变形 来 
进行 计算 。 回 忆 在 标准 BP 算法 中 ， 以 网 络 的 权 值 和 偏 置 值 计算 平方 误差 的 导数 。 为 了 产生 
雅 可 比 和 矩阵 ， 需 要 用 误差 的 导数 来 代 奉 平方 误差 的 寻 数 。 

从 概念 上 说 ， 修 改 BP 算法 以 计算 雅 可 比 矩 阵 的 元 素 是 很 容易 的 。 但 是 ， 虽 然 概 您 上 很 
简单 ， 实 现 上 却 需要 一 些 技巧 。 因 此 ， 在 第 一 次 阅读 时 你 可 以 先 跳 过 本 市 的 其 余部 分 以 获得 [12-22 
算法 流程 的 总 体 概念 ， 而 后 再 返回 来 看 细节 。 在 继续 看 下 去 之 前 ， 先 复习 第 11 章 中 BPH 
法 的 推导 是 有 益 的 。 

在 介绍 计算 雅 可 比 阵 的 过 程 之 前 ， 先 仔细 观察 它 的 形式 ( 式 (12.23))。 注 意 误差 问 量 为 

v? = [vy vgs vy] = [61 e2,1 EM geL esu o] (12.35) 
参数 向 量 为 
X = [a X22 Xn] = [ Wi) | W},2 a W's! R bj ad bs wi) 人 bh} (12.36) 
其 中 N=0xS", n=S'(R+1)+ S7(S'41) +274 SY(SY-l+1), 
A, BLAH RAR(12.23) P, SAM BVA FEAT RUSH 

















Pe ein fen Pe 
Jul, Buly why, P 
Peni Pean o Pea Pe 
Pwi Iwi, IWS R Db 
I(x) = : | : : (12.37) 
Jem, deM] Jem, dem il 
Iwi Iwi. Iw ss! p 2b) 
dela Dez Jey 2 Jey» 
Iwi | Iwi Iwy! pR Ab; 


雅 可 比 矩 阵 中 的 元 素 ， 可 以 由 BP 算法 的 简单 改进 计算 。 标 准 BP 算法 的 计算 公式 为 : 
jaT 
OFC) _ Mr Pa (12.38) 


d X] 7 Cha 
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对 Levenberg- Marquardt 算法 中 所 需 的 雅 可 比 矩 阵 的 元 素 ， 我 们 需要 计算 如 下 的 项 : 








Ov; d er, 
= 12.39 
Jla. Ax, ce ( ) 
回忆 BP 算法 中 的 导数 ( 式 11.18) 
aF ak lni 
Ow; one Iwi ARAU 
上 式 右边 第 一 项 被 定义 为 敏感 度 
n _ OF 
S; = an” (12.41) 


Marquardt 敏感 度 ”BP 算法 中 用 递归 关系 从 最 后 一 层 回 到 第 一 层 计算 敏感 度 。 可 以 用 
同样 的 概念 计算 雅 可 比 和 矩阵 的 各 项 ( 式 (12.37) ) ， 如 果 定 义 新 的 Marquardt 敏感 度 : 











E (12.42) 
„h In; Ini 
其 中 ， 由 式 (12.35)， h=(q-1)S* +k, 
BY LARA FAIA EERIK: 
2 Je, Je, Jn; In; 
Sar = gets 一 全 = x x ats! (12.43) 
vi Jw” Ini, Iwi; Iwi, 
如 果 x, 是 偏 置 值 
d 9 In” In” 
d Vh fk, gq “keg Ni,g a em 
J z2 ee eS 一 (12.44) 
[ dae ax) Jb” an™ 3b” „A a5” JA 


Marquardt 敏感 度 可 以 通过 标准 敏感 度 同样 的 递归 关系 计算 ( 式 (11.35))， 只 是 在 最 后 一 层 


12-24 有 所 修改 : 标准 BP 算 法 由 式 (11.40) 计 算 。 对 Marquardt WRR, A 


M 
) Fay 





M 
~M dg vp Feb Ite T Fh, g 
Sih = M = = M == M 
7M M 4 
_ | f (nm.g) (12.45) 
0 ， iæÆk 


所 以 当 输 入 P, 作用 于 网 络 且 对 应 的 网 络 输出 a” 计算 出 后 ，Levenbery-Marquardt 反问 
传播 被 初始 化 为 
S” =- F*(n) (12.46) 


其 中 FYCny) 由 (11.34) 式 定义 。 矩 阵 Sw 的 每 一 列 用 式 (11.35) 通 过 网 络 进行 反 向 传播 产生 
雅 可 比 矩 阵 的 一 行 。 各 个 列 也 可 以 用 下 式 进行 反 向 传播 : 


S” = F” (n ) (W+!) TS"+ (12.47) 
每 层 的 总 体 Marquardt 敏感 度 矩 阵 可 以 由 增 广 每 个 输入 计算 出 的 矩阵 而 创建 : 
S” = [Sr |S7 | …|S0 (12.48) 
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注意 ， 对 每 个 提交 给 网 络 的 输入 ， 将 反 向 传播 S" 的 敏感 度 向 量 。 这 是 由 于 计算 每 个 单 
独 误差 的 导数 ， 而 非 平方 误差 和 的 导数 。 对 每 一 个 作用 于 网 络 的 输入 都 有 S$” 个 误差 (每 个 
误差 都 对 应 于 网 络 的 一 个 输出 )。 对 每 个 误差 都 有 雅 可 比 矩 阵 的 一 行 。 
当 敏 感度 被 反 向 传播 后 ， 雅 可 比 矩 阵 由 式 (12.43) 和 (12.44) 计 算 。 请 见 例题 P12.5 X 
于 雅 可 比 计算 的 数值 示例 。 
LMBP Levenberg-Marquardt BP 算法 (LMBP) 的 适 代 过 程 概括 如 下 : 
1) 将 所 有 输入 提交 网 络 并 用 式 (11.41) 和 (11.42) 计 算 相 应 的 网 络 和 输出 和 旋 差 e =t, - 
a’. 用 式 (12.34) 计 算 所 有 输入 的 平方 误差 和 F(x). 
2) 计算 雅 可 比 矩 阵 式 (12.37)。 首 先 用 式 (12.46) 初 始 化 敏感 度 ， 再 用 式 (12.47) 递 归 计 
算 敏 感度 。 用 式 (12.48) 将 各 个 单独 的 竹 阵 增 广 到 Marquardt 敏感 度 中 。 用 式 
(12.43) 和 (12.44) 计 算 雅 可 比 阵 的 元 系 。 
3) 解 式 (12.32) 求 得 Axi。 
4) Ax, + Ax, 重复 计算 平方 误差 的 和 。 如 果 新 的 和 小 于 第 1 PRAA, MH u BREA 
9， 并 设 x ,1 =x, + AXxs， 转 第 1 步 ， 如果 和 没有 减少 ， 则 用 4 乘 以 9 ， 转 第 3 步 。 
当 梯 度 的 模 ((12.22) 式 ) 小 于 给 定 值 ， 或 平方 误差 和 减 小 到 某 个 目标 误差 时 ， 算 法 被 认 
为 了 说 明 LMBP， 将 它 应 用 到 本 章 开 始 时 介绍 的 函数 逼近 的 例 了 于 中 。 首 先 看 一 下 基本 的 
Levenberg- Marquardt 计算 步骤 。 图 12-17 说 明 在 第 一 次 迭代 中 LMBP 算法 可 能 产生 的 计算 


步 又- 





图 12-17 Levenberg- Marquardt 计算 步骤 


向 上 箭头 表示 较 小 py 所 取 的 方向 ， 对 应 于 高 斯 -牛顿 法 的 方向 。 偏 右 方 箭头 表示 较 大 
n 所 取 的 方向 ， 对 应 于 最 速 下 降 法 。( 这 是 前 面 讨论 过 的 算法 的 初始 取向 。) 两 箭头 之 间 的 线 
表示 中 等 大 小 由 的 Levenberg- Marquardt OR, TER, H pa 增加 时 算法 向 最 速 下 降 法 的 方 
向 移动 一 小 步 。 这 意味 着 算法 的 每 次 迭代 都 能 减少 平方 误差 和 。 

12-18 显示 LMBP 轨迹 的 收敛 路 径 (wo = 0.01, 0=5). TER, BRM MAIR RR 
前 面 讨论 的 所 有 算法 都 少 。 当 然 这 个 算法 在 每 次 近代 时 的 计算 量 比 任何 其 他 算法 大 (因为 要 
求 和 矩阵 的 逆 )。 但 是 ， 对 于 中 等 数量 的 网 络 参 数 ， 即 使 要 作 大 量 计算 ，LMBP 算法 依然 是 最 
快 的 神经 网 络 训练 算法 [HaMe94|。 
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平方 误差 


图 12-18 LMBP 轨迹 


试验 LMBP 算法 请 用 Neural Network Design Demonstration Marquardt Step 
(nnd12ms) #2 Marquardt Backpropagation( nnd12m) 。 





LMBP 算法 的 主要 缺点 是 存储 需求 。 算 法 需要 存储 近似 赫 森 矩阵 JJ， 这 是 一 个 nxn 
和 矩阵， 其 中 n 是 网 络 中 的 参数 ( 权 值 和 偏 置 值 ) 数 目 。 回 忆 其 他 算法 只 要 存储 一 个 n E 
的 梯度 。 当 参数 数目 非常 大 的 时 候 ，Levenberg-Marquardt 算法 可 能 是 不 实用 的 (“非常 大 ” 依 
12-27 赖 于 你 计算 机 上 的 存储 器 ， 但 典型 的 上 限 是 几 千 个 参数 )。 


12.3 小 结 


启发 式 BP 算法 改进 


批 处 理 

在 整个 训练 集 都 提交 网 络 后 才 更 新 参数 。 平 均 每 个 样本 计算 出 的 梯度 以 得 到 更 精确 的 榜 

度 估 计 。( 如 果 训 练 集 是 完全 的 ， 即 覆盖 了 所 有 可 能 的 输入 /输出 对 ， 则 梯度 估计 是 精确 

的 。) 

动量 BP 算法 (MOBP) 

AW” (k) = YAW™ (hk - 1) - (1-Yy)asm(am- ) 
Ab™(k) = YAb™(k -1)- (1 - y)as” 

可 变 学 习 速 度 的 BP 算法 (VLBP) 

1) 如 果 一 次 权 值 改变 后 平方 误差 (在 整个 训练 集 上 ) 的 递增 超过 某 个 百分数 5( 典 型 值 为 
1% ~5%)， 则 权 值 改变 被 取消 ， 学 习 速 度 乘 以 一 个 小 于 1 HAF o, DER y (如 
果 有 的 话 ) 设 为 0。 

2) 如果 数值 改变 后 的 平方 误差 递减 ， 则 接受 权 值 更 新 ， 学 习 速 度 乘 以 大 于 1 的 因子 y- 
WR y 过 去 设置 为 0， 则 恢复 到 原来 的 值 。 

12-28, 3) 如 果 平 方 误差 递增 不 超过 5， 则 接受 权 值 更 新 ， 但 学 习 速 度 和 动量 系 度 都 不 变 。 
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数值 优化 技术 
tf FRG BEX 
区 间 位 置 
F(x) 
Se 
D | 
-AU 2¢ 
NL : 
Ci O71 
a2 一 b, 
b 
É a, bs 
us bs 


区 间 缩 小 (黄金 分 割 搜索 ) 
t=0.618 
set c)=a, +(1-7)(b,-a,;), F.= Fe) 
d,=6,-(1-1)(b,-a,), Fy= FCd,) 
fork=1, 2, ** repeat 
if F, < Fy then 
set 4p = Ons bkal = Aes deat = Ck 
Chet = api + (1-1) brg - Gee 1) 


Fa= Fk.; F= F(ar) 


else 
set ak1 = Ch Ons: = Ons Chay = i 
dua = bir1— (Cl —t) Cbg 41 Qk+1) 
F.= Fa; Fa = F(dp41) 
end 


end until b1 — a,41 < tol 


Levenberg - Marquardt BP( LMBP) # ix 
Ax, = — [J7(x,) I(x) + uI] Oy vy) 


vi = [oo on) = Ley €21 es! 1 12°" es" o] 
T I } ae l; b! Sac bi D, see b Mn} 
x = LR Kal = [wil wi Ww s RË] s Wi] S 


N = Qx Sand n = S'(R4+1) 4+ SÈS! 41) +0 + SMCS"! + 1) 
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dey ,| Jey 4 Jer | Jey | 
| 
Iwi Iwi? dw g! 7 db] 
dez | de, 1 de, | Jey | 
dwi Fwy» dws p db 
J(x) = l 
Jeg, deg, Jest, de, 
9 wi Iwi? dw s! R 3b) 
de] 2 dein de] 2 Jer 5 
Iwi, FWi 4 dws! p Ab, 
对 权 值 XX} 
av, ger,, Jey Inj, re On; pat 
Shar = 35, FG ie Ta i 3 = ~ Pik * = Sih X iq 
Wij Nig 2 Wij 
XT BE x, 
dv, Fey Je, gq dn; q z Inj, jn 
[Jj = Fu, = aim tam Mam 5 aX Ty T Fie 
d b; Inj, db; db; 
m 9 vp Fe, g xM 
si, = s =a (Marquardt WREE) EFP h=(g-1)5 +k 
Nh. m 
ty g nN; 


S” =- F” (n”) 
Sr = F” (nr) (W!) Spe 
230] gn = [Sr Sr] 183] 
Levenberg- Marquardt KR 
1) 将 所 有 输入 提交 网 络 并 用 式 (11.41) 和 (11.42) 计 算 相 应 的 网 络 输出 和 误差 e = t, - 
aw 。 用 式 (12.34) 计 算 所 有 输入 的 平方 误差 之 和 F(x). 
2) 用 式 (12.37) 计 算 雅 可 比 和 矩阵 。 首 先 用 (12.46) 式 初始 化 敏感 度 ， 再 用 (12.47) 递 局 计 
算 ， 用 式 (12.48) 将 各 个 矩阵 增 广 到 Marquardt 敏感 度 中 。 用 式 (12.43) 和 (12.44) 计 
算 雅 可 比 阵 的 元 素 。 
3) 解 (12.32) 式 求 Axi。 
4) Ax, + Ax, 重复 计算 平方 误差 之 和 。 如 果 新 的 和 小 于 第 1 步 中 计算 所 得 的 和 ， 则 把 pn 
除 以 6， 并 设 x, ,| = x + Axt， 转 第 1 步 。 如 果 平 方 误差 和 没有 减少 ， 则 4 RAGO, 


12-31) 转 第 3 步 。 
12.4 例题 
P12.1 用 训练 集 { (pi =[-3]), (t.=[0.5])}, [Qmeal2)), (h=11)) VÆK 12-19 


ww ai bbt. com 7 O00000 


BI2E Rate AHH 247 


中 的 网 络 ， 初 始 值 为 w (0) = 0.4，48(0) = 0.1$。 用 批 处 理 和 非 批 处 理 的 SDBP 方法 ,说 明 
第 一 步 方 向 计算 中 批 处 项 的 影响 。 


输入 Log-Sigmoid Z 


pe— -EHE 
| 
l 
"7 


a = logsig(wp+b) 
图 12-19 ”例题 P12.1 的 网 络 


解 
首先 计算 不 用 批 处 理 的 初始 步 的 方向 。 此 时 第 1 步 由 第 一 个 输入 /目标 对 计算 。 前 向 传 


播 步 和 反问 传播 步 为 


a = logsig( wp + b) = ee ee EE DY = 0.2592 
e = t-a = 0.5 -0.2592 = 0.2408 
s =-2f(n)e =-2a(l - a)e =- 2(0.2592)(1 - 0.2592)0.2408 = - 0.0925 
RFRA [el FEB RET o ERREA 
- sp =- (- 0.0925)(- 3) = - 0.2774 
Xt TREBA 
— s$ =~ ( - 0.0925) = 0.0925 
因此 在 ( w，5) 平 面 中 初始 步 的 方向 为 
| - ad 
0.0925 
MEZ FE HL AD PES PE RE Ay Te]. CAT BY 88 BE ee AAAA i SR OY BE I 
WaR FA, RES 2 “a A 2S FETT BT Pd A Be AR :; 


] 中 
a = logsig( wp +b) = Te (0.4(2) + 0.15)) ne (0.4(2) + 0.15)) = 0.7211 


e = t-a = 1l-0.7211 = 0.2789 
s =-2f(n)e =- 2a(l - ade =- 2(0.7211)(1 -0.7211)0.2789 = - 0.1122 
操作 步 的 方向 是 梯度 的 反方 向 。 对 权 值 这 将 是 
~ sp =- (~ 0.1122)(2) = 0.2243 
对 偏 置 值 有 
- s =—(-0.1122) = 0.1122 


因此 第 二 个 输入 /目标 对 的 部 分 梯度 为 


0.2243 
0.1122 
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如 果 将 两 个 输入 /目标 对 的 结果 相 加 ， 可 以 得 到 批 处 理 模 式 下 SDBP 第 1 步 的 方向 为 


i ny bed) 1] ~ 9.0531) Peo 
;| 0.0925 | ~Lo.1122]/~ 2| 0.2047 | ~ | 0.1023 
结果 如 图 12-20 所 示 。 黑 圆圈 指示 初始 点 。 两 边 的 箭头 表示 两 个 输入 /目标 对 的 部 分 梯 
度 方 向 ， 中 间 的 箭头 表示 总 梯度 的 方 回 。 画 出 的 函数 是 整个 训练 集 的 平方 误差 之 和 。 注 意 单 
个 梯度 分 量 可 以 指 回 与 真实 梯度 完全 不 同 的 方向 。 但 是 ， 一 般 说 来 ， 在 知 于 次 和 迭代 后 ， 路 径 
12.33) 将 沿 着 最 速 下 降 轨 迹 。 
批 处 理 模式 对 逐 潮 通 近 的 相对 影响 是 强烈 依赖 于 特定 问题 的 。 逐 渐 逼 近 不 需要 更 多 的 存 
储 ， 而 且 如 果 提 交 给 网 络 的 输入 是 随机 的 ， 轨 迹 也 会 是 随机 的 ， 这 使 算法 有 时 会 落 和 人 局 部 极 
小 点 ， 并 且 较 批 处 理 算 法 花费 更 多 的 时 间 。 
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图 12-20 ” 批 处 理 对 例题 P12. 1 的 影响 


P12.2 在 第 9 章 中 证 明了 将 最 速 下 降 法 应 用 于 二 次 函数 时 ， 如 果 学 习 速 度 小 于 2 REAR 
矩阵 的 最 大 特征 值 ， 则 算法 是 稳定 的 。 如 果 将 动量 项 加 入 到 最 速 下 降 法 ， 证 明 总 是 由 动量 系数 
决定 算法 的 稳定 性 而 非 学 习 速 度 。 遵 循 9.2.1 节 的 “稳定 的 学 习 速 度 一 段 的 格式 进行 证 明 。 

解 

标准 最 速 下 降 算 法 为 

Ax; 三 一 aV F(X) = 一 ag, 


MRI EMRM, EAM 
Ax, = YAx,_; - (1 - Y)ag, 
由 第 8 章 ， 二 次 函数 的 形式 为 
F(x) = 5x" Ax +d’x+c 
二 次 函数 的 梯度 为 
12-34| VF(x) = Ax+d 


将 该 式 代 人 有 动量 项 的 最 速 下 降 算 法 中 ， 得 到 
Ax, = YAx,_; - (1 - Y)a(Ax, + d) 


使 用 定义 Ax, =X Xo” EAA SH 
Ll — X; = V(X, 一 X,_1) = (1 = Y) a( Ax; + d) 
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或 
Xi = L(1+7)I-(1-7)aAx - YX! (1 - Yad 
现在 定义 一 个 新 问 量 
= ie | 
X, = 
X; 
带动 量 的 最 速 下 降 法 变形 可 写成 


E 0 I z 0 
SARE S +I- ea | | (1 aal 
如 果 W 的 特征 值 的 模 都 小 于 1， 则 该 线性 系统 是 稳定 的 。 我 们 将 找到 W 的 特征 值 。 首 
先 ， 重 写 W 为 


= Wx, +v 


0 I 
w-| |， 其 中 T = ((1+ y)I- (1 - y)aA] 


W 的 特 值 和 特征 四 量 应 满足 


即 
ZY = AY zi 和 _ yz“ 4 Tz = A” 2” 
此 时 选择 允 作为 矩阵 了 的 特征 向 量 ， 对 应 的 特征 值 为 A。( 如 果 这 个 选择 不 恰当 ,将 
会 导出 矛盾 。) 因 此 上 式 变 为 
mH = “z 和 -Yr + NE = AY ey 
将 第 一 个 式 子 代 和 人 第 二 个 式 子 有 
_ ae +A = doe 或 L(A)? -NA*) + ylz = 0 
Ae, RE TA MEPE(E A’ 都 有 W 的 两 个 特征 值 、* 满足 二 次 方程 
(AY)? - ACA") + 7 = 0 


12-35 


由 二 次 方程 求 根 公 式 


Y o Abs v (A')* -4y 
7 2 
如 果 算 法 要 稳定 ， 则 要 求 每 个 特征 值 的 模 都 小 于 1。 我 们 将 说 明 总 是 存在 7 区 一 个 范围 满足 


这 个 条 件 。 
注意 ， 如 果 特 征 值 X” 为 复数 ， 则 它 的 模 为 YY: 


LA” | =- + = VY 
(这 仅 当 入 为 实数 时 成 立 。 下 面 将 说 明和 为 实数 ,) 由 于 Y 在 0 和 和 1 之 间 ， 所 以 特征 值 的 模 必 
小 于 1。 下 面 将 说 明 ， 存 在 y 的 一 个 范围 使 所 有 的 特征 值 都 为 复数 。 
为 了 使 A* 为 复数 ， 必 须 有 

(A)? -4y <0 或 IAL < 2VY 
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ZE TRA. HERB A 的 特征 值 表示 。 BIA, a, tt, Ant 和 
IZ, Z2, 0, Z, Nae FEE AEE eS, R 
Tz; = (1+YI-(1- 7Y)aAjz， = (1 + Y)z; - (1 - YaAz; 
12-36; = (14+ y)z; - (1 -Yo = {((1 +7) - (1 - yea; $2; = NZ; 
因此 TT 的 特征 癌 量 与 A 的 特征 向 量 相 同 ， 且 的 特征 值 为 
~ = i(l +Y)- (1 -Yay! 
(注意 对 于 对 称 和 矩阵 A ma, BF y, a 和 入 ; 均 为 实数 ， 所 以 内 也 是 实数 ,) 为 了 使 、X* 为 一 
数 ， 必 需 有 
<2v7 或 |(+Y)-(] -Wo|< 27Y 
当 y= 1 时, 不等式 两 边 均 为 2。 不 等 式 右 端 作为 y 的 函数 ,在 和 = 1 的 斜率 为 1。 不 等 式 左 
端的 函数 的 斜率 为 1 + aXM;。 由 于 赫 森 矩阵 的 特征 值 在 蛆 数 有 一 个 强 极 小 点 时 将 是 正 实数 ， 且 
学 习 速 度 为 正 数 ， 此 斜率 必 大 于 1。 这 说 明 当 入 足够 接近 于 1 时 该 不 等 式 总 是 成 并 。 
作为 结论 ， 我 们 证 明了 如 果 将 动量 项 加 到 二 次 函数 的 最 速 下 降 算 法 中 ， 则 总 有 一 个 动量 
系数 将 使 整个 算法 稳定 ， 而 不 管 学 习 速 度 如 何 。 另 外 证 明了 如 果 入 趋 近 于 1， 则 W 的 特征 值 
的 模 为 /Y。 可 以 证 明 [ Brog91] 特 征 值 的 模 决 定 了 算法 的 收敛 速度 。 模 越 小 ， 收 敛 速 度 越 快 。 
当 模 趋 近 于 1 AT, BOAT DOR. 
可 以 用 图 9-3 的 例子 来 说 明 这 些 结 果 。 在 那里 证 明了 当 学 习 速 度 o> 0.4 时， 最速 下 降 法 
对 函数 F(x) = x? +2522 是 不 稳定 的 。 在 图 12-21 中 可 以 看 到 当 a=0.041，Y=0.2 时 具有 动量 
[112-37] 项 的 最 速 下 降 法 轨迹 。 将 这 个 轨迹 与 图 9-3( 它 有 相同 的 学 习 速 度 ,， 但 没有 动量 项 ) 比 较 。 


1 


0.6 


1 PT 0 05 1 


图 12-21 a=0.041 和 Y=0.2 时 的 轨迹 
P12.3 对 下 述 函 数 执行 3 次 可 变 学 习 速 度 算 法 的 欠 代 ; 
F(x) = xi + 25x3 


(该 函数 取 自 第 9 章 9.2.1 节 中 “稳定 的 学 习 速 度 ” 的 例子 ) 初始 值 为 


bd 
"= 10.5 
算法 的 参数 为 : 
a = 0.05, y = 0.2, 7 = 1.5, o=-0.9; C= 5% 
解 


第 1 步 是 计算 初始 点 的 孙权 全 O: 
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rm) = te? 9 j= #0.s osi? 2][°5] -ss 
i = zilo sol” = 0 sollo.s] =” 
下 一 步 是 求 梯度 
g 
Ja E) 2x, 
V F(x) = 2 = 
- Fix) 50 x4 
x2 
如 果 计 算 初 始点 的 梯度 ， 则 有 12-38 


| 
Bo = VEG) | os, = 四 
在 初始 学 习 速 度 为 a=0.05 时 ， 算 法 的 第 一 步 党 试 为 


0.04 
Am -yax = (1 = Yagy = 0.2| 0 | - 0.8(0.05)/ | = im | 


erm tam =[ | +] -2 


-0.5 
为 验证 这 一 步 的 有 效 性 ， 计 算 在 这 个 新 点 的 隔 权 值 : 


ry test A DE i ? oN Gagged 
F(xi) = 5 (xi) 2 "i xf = > [0.46 - 0.5] — ae = 6.4616 
EDF F(x0)。 因 此 ， 这 一 试验 步 被 接受 ， 而 且 学 习 速 度 增 加 : 

X = Xj = | P | F(x) = 6.4616 和 = ya = 1.5€0.05) = 0.075 


算法 第 二 步 试验 的 计算 为 ; 


_0. 0.92] f- 0.0632 
Ax, = YAxo - (1 - 7)ag = 0.2| 0-04 - 0.8(0.075)| °°? d "| 1 3 | 


| are [ ge ° a 
X; = X + Ax; = _05 
计算 这 一 点 的 薄 权 值 : 

0.3968 


2 0 
F(x}) = 5 (xi) 0 50 X2 = 710. “005% JF so | | 0.8 


由 于 它 比 F(xi) 大 5%， 放 弃 这 一 步 ， 减 少 学 习 速 度 ， 并 设 动 量 系数 为 0。 
X2 = Xj, F(x) 三 F(x) = 6.4616, a= pa = 0.5(0.075) = 0.0375, T= 0 12-39 
现在 试验 新 一 步 的 计算 (动量 为 0): 


| - 16.157 








0.92 _ 0.0345 
Ax, = - ag, = - (0.0375) = | 5 oas 
| Ay | 0.46 | - ots — 
BMT 0.5 0.9375 | ~ 10.4375 
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ln 0j, 1 2 0 || 0.4255 
F(x3) = z (x5) 2 5 Xj = > 0.4255 0.4375] e i A ae = 4,966 


EDF (到 )。 因 此 这 一 步 被 接受 ， 动 量 系数 恢复 到 初始 值 ， 且 学 习 速 度 增加 。 
% = Xj, Y=0.2, a= ņa = 1.5(0.0375) = 0.05625 
这 就 完成 了 第 3 次 和 迭代 。 
P12.4 回忆 第 9 章 中 用 以 说 明 共 二 梯度 算法 的 例子 见 (9.2.3 节 ): 


F(x) = Lan? | 


] 2 
初始 点 为 
0.8 
= p a] 
TAFT ACE EE REMI —UER. ERER FARATE HTK AEM, HMR 
割 搜索 算法 进行 区 间 缩 小 。 
解 
PRX EY) Bp BE Ay 
VF(x) = Wm 十 | 
xi +2x7 
HEE PRA, SRM AMER e ERR E A e: 
Po =- 80 =- VF(x)' |x=x = | | 


在 第 一 次 碗 代 中 ， 要 沿 着 下 述 直 线 极 小 化 F(x): 


0.8 - 1.35 
Xi = X + Mp = + Qo 


_ 0.25 0.3 
第 1 步 是 区 间 和 定位 。 假 设 初 始 步 长 s=0.07$。 区 间 定 位 过 程 如 下 : 
Flai) = r(| ae | = 0.5025 
“R ae 


0.8 — 1.35 
b =e = 0.075, F(b) = F + 0.075 = 0.3721 
-0.25 - 0.3 


0.8 — 1.35 
b- = 2e = 0.15, FC) = F|] | + 0.15| || = 0.2678 
~ 0.25 - 0.3 





bs = 4 = 0.3, F(b;) r[| i 0.3| ES 0.1373 
ee ENE 0.25) Tb 0.3 FP 
0.8 _ 1,35 
b4 = $e = 0.6, F( b4) = pl| | + 0.6] | = 0.1893 
_ 0.25 _ 0.3 


由 于 晴 数 在 连续 两 次 计 值 之 间 递 增 ， 所 以 我 们 知 遂 极 小 值 在 iL0.15 0.6j 区 间 内 。 该 过 


程 由 图 12-22 中 的 小 圆圈 表示 ， 最 后 的 区 间 由 大 的 圆圈 表示 。 
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Rae ER ERR) A se Fd Be a 9 BG AT KEAN EF : 
ci = a, + (1-17); - a;) = 0.15 + (0.382)(0.6 - 0.15) = 0.3219 
di = b 一 (] 一 t)( b, = a) = 0.6 - (0.382)(0.6 — 0.15) = 0.4281 


F, = 0.2678, F, = 0.1893, F, = 0.1270, F, = 0.1085 
12-41 


由 于 Fe> fis 我 们 有 
d3 = Cy = 0.3219, b- = b} = 0.6, 
da = br — (1 - t)( bz — a) = 0.6 — (0.382)(0.6 — 0.3219) = 0.4938 


a = Fy = 0.1085, Fy = F(d> = Q.1232 


c = dı = 0.4281 


F, = F, = 0.1270, 
此 时 已 < F,, FA 
a, = a) = 0.3219, b, = d = 0.4938, d3 = c = 0.428) 
c3 = a3 + (1 — t)(b3 — a3) = 0.3219 + (0.382)(0.4938 - 0.3219) = 0.3876 


F, = Fy = 0.1232, Fi = F, = 0.1085, F, = F(c3) = 0.1094 


该 过 程 继续 直至 TES 一 âk+1 < tolo R] 12-22 中 的 小 黑 点 表示 每 次 迭代 过 程 的 一 个 新 内 
部 点 的 位 置 。 最 后 的 点 由 大 黑 点 表示 。 将 结果 与 图 9-10 中 显示 的 第 一 次 欠 代 结果 比较 。 





图 12-22 线性 极 小 化 的 例子 
P12.5 为 说 明 Levenberg-Marquardt 方法 中 雅 可 比 矩 阵 的 计算 过 程 ， 考 虑 使 用 图 12-23 


中 求解 函数 逼近 的 网 络 。 选 择 的 网 络 传输 函数 为 
PCn) = (nn)， 产 (mn) = 7 
12-42) 


它们 的 导数 分 别 为 
输入 第 一 层 第 二 层 





a =f? (w2a!+b2) 


a! = f}(w! p+b!) 
图 12-23 说明 LMBP 的 两 层 网 络 
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f'(n) = 2n, f'(n) = 1 
假设 训练 集 包 括 
Mp, = [1]), (t = LIDi, ip = [2]),(& = (2])| 
参数 被 初始 化 为 
W =[1], b =[0, W = [2], b =[1] 
计算 Levenberg- Marquardt 方法 中 第 一 步 的 雅 可 比 矩 阵 。 
解 
第 1 步 是 在 网 络 中 传播 输入 并 计算 误差 : 
ai = p = [1! 
n| = Wa) +b! = [1][1] + [0] = [1],a) = f'(aj) = ([1])? = [1] 
ni = Wal + b = ([2][1] + [1]) = [3],a = (nj) = ([2]) = [3] 
e = (t - af) = ([1] -[3]) = [-21] 
a = p, = [2] 
n} = Wal +b! = [1][2] + [0] = [2],a) = f'(m) = ([2])* = [4] 
n = Wal + b = ([2][4] + [1]) = [9], = (ng) = ([9]) = [9] 
12-43 e = (t - af) = ([2] -[9]) =[-7] 
第 2 步 是 用 式 (12.46) 和 (12.47) 初 始 化 并 反 回 传播 Marquardt 敏感 度 。 
$1 =-F(nj) =- [1] 
= F'(n})(W?) "Si = [2n] ][2][- 1] = (20) ][2][- 1] = [- 4] 
$ = -F (nj) =- [1] 
S = F'(n})(W) TS = 22][2][- 1] = [2(2) ][2][- 1] = [- 8] 


$118) sled =B] S = | #18 Siet =! 


PU ZE FAR (12.43), (12.44) A1(12.37) i+ HE) EER., 


S = 











dv] dv] Ov Ov Je, ] Je, | de, ] Je, ] 
I OX; dx d x3 dxa 9201 1 9bi Iwi] db? 
X = = 
9v2 2v, Jv, 9v2 Jer. Zeiz Jez 2e? 
Ix, IX, 2x3 Ixy Awl, 9b} Awi, bj 
Jv Jey) Jey) In} 1 1 Inj | | 0 
z a SS ee ee eS Sa ee ee 
[Jj Ox | awl, an}, Iwl, 1,1 awl, ,1 1,1 
= (-4)(1) =-4 
J vy Jey Jey. Ini ] An11 1 
— a S ean n sees E = 一 才 
Jhi = Fw, = 35) ani,” ab} LI 3p! ne 
Avy deli Inii 9 any | 
一 _ 二 这 = = gio ce A -= x a! = =. | ] 
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Av? Je 2 Ini. | Ini, sj 0 
Jh., = ax, = In! x aw! , = $1,2 ~ aw! = $12 x a; .2 = = 8)(2) = 16 
9 v2 dein del,2 Inj. ~] Ani? wi 
[J] = Ox 一 3b! = an}, X ab! = $1,2 X Jb! = 3$i2 = 二 一 8 
ava Je, 2 Ini? Inia 
| a : la _ ~2 ' _ z2 l = 25 £ S 
Jl = a a 51,2 X T $1.2 X G32 = (-1)4)=-4 
I v2 Jey 2 del,2 Ini. -2 Inia ~2 
Jhs = Ox4 = ab? 一 an? ， Xx ab? = 5],2 X ab? = 5],2 =~ ] 
Pir LA RE RT EE BREA 
sA 2 e s] 
Jx) = 
-16 -8 -4 -| 
12.5 结束 语 
基本 BP 算法 (最 速 下 降 BP 算法 一 一 SDBP) 的 一 个 主要 问题 是 训练 时 间 长 。 对 于 茶 些 问 


题 SDBP 在 大 型 机 上 也 要 花费 数 星 期 进行 训练 ， 因 此 并 不 适合 于 实际 问题 。 由 于 BP 算法 是 
最 先 流行 的 算法 ， 所 以 有 许多 提高 算法 收敛 性 能 的 改进 。 本 章 中 讨论 了 SDBP 算法 收敛 速度 
慢 的 原因 ， 并 介绍 了 几 种 提高 算法 性 能 的 技术 。 

加 速 收 伍 的 技术 分 成 两 类 ， 启发 式 方法 和 标准 的 数值 优化 方法 。 我 们 讨论 了 两 种 局 发 式 
方法 : 动量 方法 (MOBP) 和 改变 学 习 速 度 方 法 (VLBP)。MOBP 易于 实现 ,并 可 以 用 批 处 理 
或 增 量 处 理 模 式 ， 并 且 它 的 速度 明显 快 于 SDBP。 它 需要 选择 动量 系数 , 但 y 的 取 值 范围 限 
于 [0，1] 内 ， 并 且 算 法 对 它 的 选择 并 不 敏感 。 

VLBP FÆ MOBP 快 ， 但 只 能 用 批 处 理 方式 。 所 以 ， 它 需要 更 多 的 存储 空间 。VLBP 
需要 选择 5 个 参数 ， 算 法 是 相当 和 鲁 棒 的 ， 但 参数 的 选择 能 影响 收敛 速度 ， 并 且 是 与 实际 问题 
相关 的 。 

另外 还 介绍 了 两 种 标准 的 数值 优化 技术 : 共 因 梯度 法 (CGBP) 和 Levenberg-Marquardt 77 
法 (LMBP)。CGBP 一 般 快 于 VLBP。 这 是 一 种 批 处 理 方 法 ， 在 每 次 迭代 时 要 进行 线性 搜索 ， 
但 它 的 存储 需求 与 VLBP 相仿 。 共 轿 梯 度 法 还 有 许多 用 于 神经 网 络 应 用 的 怀化 ， 我 们 只 介 
绍 了 一 种 。 | 

即使 LMBP 在 每 次 迭代 的 时 候 都 要 求 矩 阵 的 逆 ， 它 还 是 所 讨论 过 的 中 等 规 借 的 多 层 神 经 网 
络 训 练 算法 中 最 快 的 一 种 。 它 需要 选择 两 个 参数 ， 但 算法 对 参数 的 选择 关 并 不 敏感 。LMBP 的 
主要 缺点 是 存储 需求 大 ， 需 要 求 J 了 J 和 矩阵 的 逆 ， 而 该 矩阵 是 nxn 的 ， 其 中 n 是 网 络 中 权 值 和 
偏 置 值 的 总 数 。 如 果 神 经 网 络 中 的 参数 多 于 几 千 个 ，LMBP 在 当前 机 器 上 就 无 法 实现 。 

BP 算法 还 有 许多 其 他 变型 ， 本 章 都 没有 讨论 到 。 关 于 其 他 技术 的 某 些 参考 文献 在 第 19 


章 给 出 。 
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Newton’s method,” Neural Computation, vol. 4, no. 2, pp. 141-166, 1992. 
这 篇 文章 很 好 地 总 结 了 当前 适合 于 神经 网 络 训练 的 优化 算法 。 
| Char92] C. Charalambous, “Conjugate gradient algorithm for efficient training of artificial neu- 
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了 比较 。 
[Fahl88] S.E. Fahlman, “Faster-learning variations on back-propagation : An empirical study,” In D. 
Touretsky , G. Hinton &T. Sejnowski, eds. , Proceedings of the 1988 Connectionist Models Sum- 
mer School, San Mateo, CA: Morgan Kaufmann, pp. 38-51, 1988. 
这 篇 文章 介绍 了 QuickProp 算法 。 这 是 对 BP 算法 更 常用 的 局 发 式 变 型 中 的 一 种 。 
它 假定 误差 曲线 可 以 用 抛物 线 逼 近 ， 同 时 每 个 权 值 可 以 看 成 是 独立 的 。 在 许多 问题 上 ， 
该 算法 比 标准 的 BP 算法 能 够 大 大 提高 速度 
| HaMe94| M.T. Hagan and M. Menhaj, “Training feedforward networks with the Marquardt 
algorithm, ” IEEE Tansactions on Neural Networks, vol. 5, no. 6, 1994. 
这 篇 文章 描述 用 Levenberg-Marquardt 算法 训练 多 层 神经 网 络 ， 并 比较 这 种 算法 与 
可 变 学 习 速 度 的 BP 算法 和 共 斩 梯 度 算 法 的 性 能 。Levenberg-Marquardt 算法 比较 快 ， 
但 是 需要 更 多 的 存储 空间 。 
[Jaco88] R.A. Jacobs, “Increased rates of convergence through learning rate adaptation, Neu- 
ral Networks, vol. 1, no. 4, pp. 295 - 308, 1988. 
这 是 早期 讨论 使 用 可 变 学 习 速 度 的 BP 算法 的 另外 一 篇 文章 。 主 要 介绍 了 一 种 称 为 
delta-bar-delta 的 学 习 规 则 ， 其 中 每 个 网 络 参 数 在 每 次 迭代 中 都 有 不 同 的 学 习 速 度 。 
[NgWi90 } D. Nguyen and B. Widrow, “Improving the learning speed of 2-layer neural networks 
by choosing initial values of the adaptive weights, ~ Proceedings of the IJENN, vol.3, pp. 
21-26, July 1990. 
介绍 为 BP 算法 设置 初始 权 值 和 偏 置 值 的 过 程 。 它 用 S 型 传输 函数 的 形状 和 输入 
变量 的 范围 决定 权 值 的 大 小 ， 然 后 用 偏 置 值 将 $ 形 函 数 的 形状 移 到 操作 区 域 的 中 央 。 
BP 算法 的 收敛 性 在 这 里 得 到 了 显 着 的 改进 。 
[ Rilr90] A.K. Rigler, J. M. Irvine and T. P. Vogl, Rescaling of variables in back propagation 
learning,” Neural Networks, vol. 3, no.5, pp. 561 - 573, 1990. 
本 文 注意 到 了 S$S 形 函数 的 导数 在 靠近 尾部 的 值 很 小 。 这 意味 着 网 络 中 与 前 面 几 层 相 
关 的 梯度 元 素 通 常 要 比 最 后 一 层 的 小 。 因 此 放大 梯度 中 的 项 达到 与 它们 相等 。 
[ Scal85] L.E. Scales, Introduction to Non-Linear Optimization. New York; Springer-Verlag, 


1985. 
这 是 Scales 写 的 一 本 很 好 读 的 关于 算法 优化 方面 的 书 。 该 书 强调 优化 的 方法 比 存在 
定理 和 收敛 性 证 明 更 重要 。 书 中 的 算法 都 给 出 了 直观 意义 上 的 解释 。 大 部 分 的 算法 都 给 
E TARI. 
- Shan90] D. F. Shanno, “Recent advances in numerical techniques for large-scale optimization, ` 


Neural Networks for Control, Miller, Sutton and Werbos, eds., Cambridge MA : MIT 
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| Toll90 | T. Tollenaere, “SuperSAB : Fast adaptive back propagation with good scaling proper- 


ties, Neural Networks, vol.3, no.5, pp. 561 -573, 1990. 
这 篇 文章 展示 了 一 种 具有 不 同学 习 速 度 的 BAEK, HPS TARAS SY 
速度 。 


VoMa88] T.P. Vogl, J. K. Mangis, A. K. Zigler, W.T. Zink and D. L. Alkon, Accelerat- 


ing the convergence of the backpropagation method,” Biological Cybernetics., vol. 59, 
pp. 256 - 264, Sept. 1988. 

这 是 首先 引入 启发 式 技术 来 加 速 BP 算法 收敛 速度 的 文 草 之 一 。 文 中 包含 对 批 处 
理 、 动 量 和 可 变 学 习 速 度 的 讨论 。 


>) a 
E12.1 要 训练 图 12-24 中 的 网 络 ， 训 练 集 为 
{(p, = [-2]),(t = [0.8])}, {p = [2]),(t = LI) 
其 中 每 对 的 出 现 是 等 可 能 的 。 
写 一 个 MATLAB 的 M- 文 件 画 出 均 方 误差 性 能 指数 的 轮廓 线 图 。 


输入 Log-Sigmoid 层 


pe [FT 
b 
] 


NA 
a = logsig(wp+b) 


图 12-24 “习题 E12.1 的 网 络 


E12.2 用 批 处 理 模式 和 非 批 处 理 模 式 计算 习题 E12.1 PR ee Ae), Be 
批 处 理 模式 的 作用 ， 初 始 条 件 为 
w (0) = 0, 5(0) = 0.5 
E12.3 回忆 例题 P9.1 中 的 二 次 函数 
10 -6 
-6 10 
用 带动 量 的 最 速 下 降 法 求 该 函数 极 小 点 。 
(i) 假设 学 习 速度 a= 0.2。 求 能 使 算法 稳定 的 动量 系数 Y( 用 例题 P12.2 中 的 思 
想 )。 
(ii) 假设 学 习 速 度 ，a = 20。 求 能 使 算法 稳定 的 动量 系数 Yo 
(iii) 写 一 个 MATLAB 程序 ， 在 FORRAR EEH G) (让 )) 两 种 学 习 速 度 和 动 
量 系 数 的 算法 轨迹 ， 初 始 值 为 





F(x) = x" [x+ [4 4 jx 
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a | 2 


E12.4 对 习题 E12.3 的 函数 ， 执 行 3 次 可 变 学 习 速 度 算法 的 迭代 过 程 ， 初 始 值 为 


e os] 


“F(x HCPA bin Re. RENSMA a=0.4, y=0.1, n= 1.5, 
p=0.5, [=5%. 
E12.5 对 习题 E12.3 的 函数 ， 执 行 一 次 共 扼 梯度 法 的 迭代 过 程 ， 初 始 值 为 


w= || 


在 线性 优化 中 ， 对 区 间 定 位 用 函数 求 值 法 ， 对 区 间 缩 小 用 黄金 分 割 搜索 法 。 在 
F(x) 轮 廊 线 图 上 夯 出 搜索 路 径 。 
E12.6 用 图 12-25 WP BE ew eX 
g(p) = 1 + sin( 2p), -2<p«<2 


初始 网 络 参 数 选 为 
-021 ， = hee -| 0.09 | N ips 
OA iaia -0.131 WO -0.171 BON 0.13 
试用 在 p =0 和 p=1 的 函数 g(p ) 建 立 训练 集 。 计 算 LMBP RA PR — i NE 
L12-51 可 比 和 矩阵 。( 一 些 需要 的 信息 在 11.2.3 节 的 例子 中 。) 
输入 Log-sigmoid 层 线性 层 





a! = logsig(W'p+b') a? = purelin (W2a! + 52) 


图 12-25 “习题 E12.6 的 网 络 
E12.7 对 一 线性 网 络 ， 证 明 当 w=0 时 LMBP 算 法 在 一 次 迭代 内 将 收敛 到 最 优 解 。 
E12.8 在 习题 E11.11 中 你 已 用 MATLAB 编写 了 图 12-25 的 1-2-1 网 络 的 SDBP 训练 算 
法 ， 并 且 已 经 训练 了 通 的 函数 
g(p) = 1 + sin( 2p), ~2<p<2 
重 做 上 述 习 题 ， 改 进 你 的 程序 以 实现 本 章 讨 论 过 的 算法 : 批 处 理 模 式 的 SDBP, 
12-52. MOBP, VLBP, CGBP 和 LMBP。 比 较 不 同 算法 的 收敛 法 条. 
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第 13 章 联想 学 习 


13.1 目的 


前 面 所 讨论 的 神经 网 络 (第 4,7,10 ~ 12 章 ) 都 是 在 监督 模式 下 训练 的 。 每 个 网 络 需要 一 
个 目标 信号 来 定义 正确 的 网 络 行为 。 

相反 地 ， 本 章 中 介绍 的 一 组 简单 规则 允许 无 监督 学 习 ， 这 使 网 络 具 有 在 经 常 一 同 出 现 的 
模式 之 间 学 习 其 中 关联 的 能 力 。 一 旦 学 习 成 功 ， 关 联 能 力 将 使 网 络 能 执行 有 用 的 任务 ， 如 模 
式 识别 和 回忆 。 

尽管 本 章 中 的 规则 很 简单 ， 但 它们 是 构成 第 14 ~ 16 章 中 强大 神经 网 络 的 基础 。 


13.2 理论 和 实例 


本 章 是 讨论 联想 的 : 联想 是 怎样 在 网 络 中 表示 的 ? 网 络 怎样 学 习 新 的 联想 ? 

刺激 /响应 ”什么 是 联想 ?联想 是 指 系统 中 输入 和 和 输出 之 间 的 任何 联系 ， 其 中 当 模 式 A 
输入 到 系统 时 ， 将 产生 模式 B 的 反应 。 当 两 个 模式 关联 时 ， 输 入 模式 被 称 为 刺激 (stimlus)。 
类 似 地 ， 输 出 模式 被 称 为 响应 (response)。 

关联 是 很 基本 的 概念 ， 并 构成 了 行为 心理 学 派 的 基础 。 这 个 心理 学 的 分 支 ， 试图 利用 联 
想 和 学 习 联 想 规则 解释 动物 和 人 类 的 各 种 形 为 。 

最 早 的 形 为 心理 学 派 的 影响 之 一 是 巴 甫 洛 夫 的 经 典 实验 ， 他 利用 喂食 时 扬 铃 训练 狗 对 洽 
声 的 反应 ， 这 是 一 个 现在 称 为 典型 条 件 反 射 的 例 于 。B. 上 . Skimer 是 最 具 影 响 的 形 为 心理 学 
派 的 支持 者 之 一 。 他 的 经 典 实验 包括 训练 老鼠 按 下 一 根 棒 以 获得 食物 丸 ， 这 是 一 个 用 仪 硕 作 
为 条 件 的 例子 。 

为 了 提供 这 些 行 为 的 生物 学 解释 ，Donald Hebb 提出 了 他 的 假设 (如 在 第 7 章 所 引用 的 ) 
| Hebb49 |: 

“ 当 细 胞 A 的 轴 突 触 到 细胞 日 的 距离 近 到 足够 激励 它 ， 且 反复 地 或 持续 地 刺激 B, RZ 
在 这 两 个 细胞 或 一 个 细胞 中 会 发 生 某 种 增长 过 程 或 代谢 作用 ， 增 加 A 对 细胞 B 的 刺激 效 
Ro 

第 7 章 中 我 们 分 析 了 基于 Hebb 律 的 有 监督 学 习 的 性 能 。 本 章 我 们 将 讨论 无 监督 的 Hebb 
学 习 以 及 其 他 相关 的 联想 学 习 规则 。 有 许多 学 者 对 联想 学 习 的 发 展 作 出 了 贡献 ， 特 别 是 
Tuevo Kohonen, James Anderson 和 Stephen Grossberg 都 非常 有 影响 。Anderson 和 Kohonen 
在 20 世纪 60 年 代 未 和 70 年 代 初 独立 地 提出 了 线性 联想 器 网 络 ([Ande72]，[Koho72j)。 
Grossberg 同时 引信 了 非 线 性 连续 联想 网 络 (| Gross68 |), 这 些 学 者 与 其 他 许多 学 者 一 起 持续 
推动 联想 学 习 的 发 展 直 至 分 天 。 

本 章 中 我 们 将 讨论 一 些 基 本 的 联想 学 习 规 则 。 接 着 在 第 14 ~ 16 章 ， 要 介绍 一 些 将 联想 
学 习作 为 基本 部 件 的 复杂 网 络 。 第 14 章 讲 述 Kohonen 网 络 ,第 15 章 和 第 16 章 将 讨论 
Grossberg 了 网络。 
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输入 和 硬 极限 神经 元 
13.2.1 简单 联想 网 络 一 

让 我 们 看 一 看 可 以 实现 一 个 联想 的 最 简单 的 网 络 。 SW J n a 
一 个 单 输入 便 极 限 神 经 元 如 图 13-1 BAN. Í 2 
神经 元 的 输出 a 由 输入 p 按 下 式 决 定 : | 

a = hardlim (wp + b) = hardlim (wp - 0.5) SAAJA N iLa 
(13.1) a = hardlim(wp+b) 
为 简化 起 见 ， 这 里 限制 p 的 值 为 1 或 0， 以 表示 | 
是 否 有 刺激 。 注 意 到 由 于 使 用 硬 极限 函数 ，a 被 限定 


为 同样 的 值 。 它 表明 网 络 是 否 有 响应 。 
1, 有 刺激 _ [pam 


0, 无 刺激 0, 无 啊 应 

有 刺激 p =1 和 有 了 啊 应 a = 工 之 间 的 联想 是 由 w 的 值 决 定 的 。 仅 当 w 大 于 -6( 此 例 为 
0.5) 时 ， 网 络 对 刺激 将 有 响应 。 

本 章 讨论 的 学 习 规则 一 般 在 大 型 网 络 的 框架 中 使 用 ， 如 第 14 ~ 16 章 中 的 竞争 网 络 。 为 
了 避免 使 用 复杂 网 络 来 说 明 联 想 学 习 规 则 的 操作 ， 我 们 将 使 用 有 两 类 输入 类 型 的 简单 网 络 。 

无 条 件 刺 激 ”条 件 刺 激 ”一 类 输入 集 称 为 无 条 件 刺激 ， 这 类 似 于 巴 甫 洛 夫 实 验 中 给 狗 的 
食物 。 男 一 类 输入 集 称 为 条 件 刺激 ， 类 似 于 巴 甫 党 夫 实 验 中 的 铃声 。 一 开始 狗 只 在 有 食物 时 
才 分 刻 唾液 ， 这 是 一 种 无 需 学 习 的 先天 的 特征 。 然 而 当 铃 声 与 食物 重复 地 同时 出 现时 ， 狗 会 
在 仅 有 铃声 的 条 件 下 分 泌 唾 液 ， 而 不 论 是 否 有 食物 。 

我 们 用 p 表示 无 条 件 刺激 ， 用 p 表示 条 件 刺 激 。 首 先 假 设 关于 p 的 权 值 固 定 , 但 与 p 
有 关 的 权 值 根据 相关 的 学 习 规 则 改变 。 

13-2 表示 一 个 识别 香 敬 的 例子 。 网 络 中 有 无 条 件 刺 激 ( 香 芍 的 形象 ) 和 有 条 件 刺激 ( 香 
菩 的 气味 )。 这 并 不 是 上 暗示 嗅觉 比 视觉 更 有 条 件 性 。 本 章 的 例子 中 对 条 件 刺激 和 无 条 件 刺 激 
的 选择 是 任意 的 ， 只 是 用 以 说 县 学 习 规 则 的 性 能 。 我 们 在 下 市 中 将 用 这 个 网 络 显 示 Hebb 规 
则 的 操作 过 程 。 


b= -0.3 


图 13-1 单 输 入 硬 极限 联想 器 


(13.2) 


输入 硬 极限 神经 元 





a = hardlim(wp®+wp+b) 
图 13-2 香 集 联想 从 


该 网 络 中 有 条 件 和 无 条 件 输入 的 定义 为 : 
_ Pe 和 TIR 
P ”|(o, 不 检测 形状 ” ”1【0, 不 检测 气味 
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此 时 我 们 希望 网 络 用 指明 水 果 是 香 末 的 响应 将 香 礁 的 形状 关联 ， 
而 不 是 气味 (请 见 图 13-3)。 这 可 以 将 大 于 -b WERS w? AK 
小 于 - b BUR w 来 解决 这 一 问题 。 下 述 值 满 足 这 些 要求 


w? =1, w=0 (13.4) 
TARE AE Ba A 6 eR EA 
a = = hardlim( p° 0.5) (13.5) 


所 以 ， 网 络 只 对 看 到 香蕉 (po = 1) 产 生 响 应 ， 而 不 论 是 否 闻 到 
香花 的 气味 (p = 1 或 p =0)。 
在 下 一 节 中 我 们 用 这 个 网 络 说 明 一 些 联想 学 习 规 则 的 性 能 。 


13.2.2 无 监督 的 Hebb 规则 


对 简单 问题 设计 具有 固定 联想 集 的 网 络 并 不 困难 ， 但 有 用 的 网 络 必 须 能 学 习 联想 关系 。 

那么 要 在 何 时 学 习 联 想 ?” 一 般 来 说 ， 当 几 个 事件 同时 发 生 的 时 候 人 和 动物 倾 问 于 将 它们 
联系 起 来 。Hebb 规则 表 认 为 : 当 香 莹 的 气味 刺激 与 香蕉 概念 啊 应 (由 其 他 刺 油 引 起 ， 如 香 菊 
形状 ) 同 时 产生 的 时 候 ， 网 络 将 加 强 它们 之 间 的 联系 。 以 后 ， 当 只 有 香蕉 气味 刺激 时 也 能 产 
生 香 礁 概 念 的 响应 。 | 

无 监督 Hebb 规则 将 根据 神经 元 的 输入 P 和 输出 a; 与 它们 的 乘积 之 间 的 比例 增加 权 全 w: 

w, ne’ ) = w; FAOIN (13.6) 

(也 可 参见 式 (7.5),) 学 习 速 度 6 决定 着 联想 关系 建立 前 刺激 和 响应 同时 发 生 的 次 数 。 在 图 
13-2 的 网 络 中 ， 当 w> -5 =0.5 时 联想 关系 建立 ， 因 为 此 时 p = 1 会 产生 啊 应 a = 1 而 不 论 
p WHEE. 

局 部 学 习 ”注意 到 式 (3.6) 中 只 用 到 了 包含 被 更 新 权 值 的 层 的 信号 。 满 足 这 个 条 件 规 则 
被 称 为 局 部 学 习 规 则 。 这 与 BP 算法 不 同 ， 例 如 BP FIR TE BURBS AR fa Fe i 
本 章 中 介绍 的 规则 都 是 局 部 学 习 规 则 。 

无 监督 的 Hebb 规则 也 可 以 写成 同 量 形式 : 





PY 13-3 


Wg) = Wg - 1) + aa(g)p (gq) (13.7) 

训练 序列 ”对 所 有 的 无 监督 规则 ， 学 习 是 由 对 一 个 按时 间 的 输入 序列 (训练 序列 ) 的 啊 应 
决定 的 : 

p(1), pl(2), «+, pQ) (13.8) 


(注意 : 使 用 记号 pq (VF p, 是 为 了 强调 输入 的 时 序 性 质 。) 在 每 次 欠 代 中 ， 根 据 对 输入 
的 响应 计算 输出 a， 接 着 权 值 W 根据 Hebb 规则 更 新 。 
让 我 们 将 无 监督 Hebb 规则 应 用 于 香 若 联 想 器 。 联 想 器 的 初始 权 值 由 前 下 的 例子 给 定 ， 
所 以 它 最 初 对 形状 响应 ， 而 不 响应 气味 。 
w? = 1,w(0) = 0 (13.9) 
KERRIER. AMMAR eee se, POR Raa Al RIB) a 
工作 (在 偶数 步 )。 所 以 ， 训 练 序 列 将 重复 下 述 两 组 输 和 人 
Ipa) =0, p(1) = 11, {1p (2) = 1, p(2) = 1 (13.10) 
第 一 个 权 值 w*( 表 示 无 条 件 刺激 po 的 权 值 ) 保 持 为 常数 ， 而 w ERRAI, RIT 
监督 Hebb 规则 更 新 ， 其 中 学 习 速 度 为 1。 
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w(q) = wlq-1) + alq) pg) (13.11) 
第 一 次 迭代 (gg = 1) 的 输出 为 
a(l)= hardlim( w? p°(1) + w(0)p(1) - 0.5) 
= hardlim(1x0+0x1-0.5) = 0 (无 响应 ) 
单独 的 气味 并 不 产生 响应 。 无 啊 应 时 ，Hebb 规则 并 不 改变 wo 
wll) = w(0)+a(ll)p(l)=0+0x1=0 (13.13) 
SRIRAM AAR ADR A E fiz Be : 
a(2) = hardlim( w?p°(2) + w(1) p(2) - 0.5) 


(13.12) 


= hardliim(l1x1+0O0x1-0.5) = 1 (PÆ) an 
因为 气味 刺激 和 响应 同时 发 生 ，Hebb 规则 将 增加 它们 之 间 的 权 值 。 
| 13-6 | w(2) = wl(l)+a(2)p(2;)=0+1x1=1 (13.15) 
第 三 次 迭代 中 ， 视 觉 检测 器 再 次 失败 ， 网 络 依然 响应 。 此 时 已 产生 了 香蕉 气味 和 对 它 的 
反应 之 间 的 有 用 联想 。 
a(3)= hardlim( w® p°(3) + w(2)p(3) - 0.5) he sa 


= hardlim(1x0+1x1-—0.5) = 1 (B) 
w (3) = w(2) + a(3)p(3) = l+lxl]=2 (13.17) 
ORY, PUR CREA RIA ER ABE IA. BEEP ed AB HE BL ek 
的 时 候 ， 网 络 在 大 部 分 也 能 正常 工作 。 
试验 无 监督 的 Hebb 规则 请 用 the Neural Network Design Demonstration Unsuper- 
vised Hebb Rule (nnd13uh) 。 





我 们 看 到 Hebb 规则 能 学 习 有 用 的 联想 。 然 而 式 (13.6) 中 定义 的 Hebb 规则 有 一 些 缺 点 。 
首先 ， 当 我 们 在 上 例 中 连续 地 提交 输入 并 更 新 w 时 ， 权 值 w 将 趋 于 无 限 大 ， 这 与 导出 
Hebb 规则 的 生物 系统 予 盾 。 突 触 不 能 无 限制 地 增 大 。 

第 二 个 问题 是 没有 机 制 使 权 值 递减 。 如 果 Hebb 网 络 的 输入 或 输出 有 了 曝 声 ， 每 次 权 值 都 
会 增加 (但 是 很 缓慢 )， 直 至 最 后 网 络 对 任何 刺激 都 作出 响应 。 

带 豪 减 的 Hebb 规则 

衰减 速度 ”改进 Hebb 规则 的 一 种 方法 是 加 入 权 值 的 衰减 项 ( 式 (7.45)): 

Wg) = Wl¢ - 1) + aa(g)p’(q) -YW(g - 1) 
= (1 - y)W(q - 1) + aa(g)p’(q) 
其 中 y 为 衰减 速度 ， 是 一 个 小 于 1 的 正 数 。 当 y 趋 近 于 0 时 ， 学 习 规则 就 变 成 了 标准 规则 。 
4 y 趋 近 于 1 时 ， 学 习 只 能 记 住 当前 的 模式 而 很 快 忘 了 前 面 的 输入 。 这 保证 权 值 矩阵 无 界 地 
增加 。( 过 滤 权 值 改变 的 思想 在 第 12 章 中 已 讨论 过 ， 在 那里 称 为 动量 。) 
”最 大 权 值 w3“ 由 y 决 定 。 在 式 (13.18) 的 标量 形式 中 ， 对 所 有 9 将 w Mp, 都 设 为 1( 最 
13-7) 大 化 学 习 )， 然 后 求解 稳 态 权 值 (此 时 ， 新 旧 权 值 相同 )， 就 可 以 求 出 这 个 最 大 权 值 。 


w, = (1 - y) wi + adip, 


(13.18) 


w, = (L- yw, + a (13.19) 


iin. Ge 
yo y 
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让 我 们 来 检验 上 述 香 葵 联 想 器 问题 中 带 衰 试 的 Hebb 规则 。 设 衰减 率 y 为 0.1。 第 一 次 
迭代 只 有 气味 刺激 ， 结 采 与 前 面相 同 : 
a(1) = 0( 无 中 应 )， w(1)=0 (13.20) 
POKERA A ZAR, UA PPR a ET, FP AS TI AO E yz 
ERTA ER AI Bae AAT o AS Fa] EH PAE BE BA ; 
a(2) = (FÆ), w(2) = 1 (13.21) 
第 三 次 迭代 的 情况 有 所 不 同 。 网 络 已 经 学 习 了 对 气味 的 啊 应 ， 权 值 也 持续 增加 。 然 而 ， 
这 次 权 值 的 增加 仅 为 0.9 而 非 1.0。 
w(3) = w(2) + a(3)p(3) ~0.1 w(2) =141x1-0.1x12=+1.9 (13.22) 
由 于 衰减 项 限制 权 值 的 值 ， 使 得 无 论 怎样 多 次 强制 联想 ，w 也 不 会 超过 wo 


max _ a = =o _ 
= * a7 = 10 (13.23) 


新 规则 也 保证 网 络 已 学 习 的 联想 不 会 成 为 人 为 的 噪声 。 任 何 小 的 随机 增加 将 很 快 地 衰减 挥 。 
图 13-4 显示 了 香 欧 识别 例子 中 ， 有 衰减 和 元 衰减 的 Hebb 规则 的 啊 应 。 在 无 衰减 时 ， 权 
值 以 神经 元 每 次 激活 时 则 样 的 值 连续 增加 。 当 增加 误 减 后 ， 其 权 值 以 指数 方式 逼近 最 大 值 
wp” = 10). 
je HH A 49 Hebb 规则 请 用 Neural Network Design Demonstration Hebb with 
Decay (nnd13hd) #° Effect of Decay Rate (nndi3edr) . 








Hebb 规则 : 带 衰减 的 Hebb 规则 








图 13-4” 带 衰减 的 和 不 带 喜 减 的 Hebb 规则 的 啊 应 


带 训 减 的 Hebb 规则 解决 了 大 权 值 的 问题 ， 然 而 这 是 有 代价 的 。 环 境 必须 考虑 到 有 时 会 
出 现 具 有 联想 的 所 有 刺激 ， 否 则 的 话 ， 联 想 将 袁 减 。 
为 了 说 明 这 种 情况 ， 考虑 a, =0 时 的 式 (13.18): 
wl(g) = (1 - Yw lg- 1) (13.24) 
如 果 yY=0.1， 它 变 为 
wi(gq) = (0.9) wii(9 - 1) (13.25) 
因此 w ERK a =0 时 将 减少 10%, EME FINK, RARER. 我 们 在 下 节 中 将 讨 
论 这 个 问题 的 一 种 解决 方案 。 
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13.2.3 简单 的 识别 网 络 


instar 前 面 我 们 讨论 的 仅 限于 标量 输入 /输出 之 间 的 联想 。 这 里 将 检验 有 向 量 输入 的 神经 
元 ( 见 图 13-5)。 这 个 神经 元 有 时 被 称 为 instar， 是 最 简单 的 模式 识别 网 络 ， 我 们 将 简单 地 说 明 。 


输入 硬 极限 神经 元 





a = hardlim(Wp+ b) 
图 13-5 instar 神经 元 


我 们 注意 到 图 13-5 的 instar 神经 元 与 图 4-3 的 感知 机 (图 10-2 的 ADALINE 以 及 图 7-5 
的 线性 联想 器 ) 的 相似 性 。 给 这 些 网 络 以 不 同 的 名 字 ， 部 分 是 因为 历史 的 原因 (因为 它们 产生 
于 不 同 的 时 期 和 环境 ) ， 并 且 因 为 它们 有 不 同 的 功能 ， 以 及 用 不 同 的 方法 分 析 。 例 如 ， 虽 然 
判定 边界 是 感知 机 的 重要 概念 ， 但 是 并 不 在 instar 中 直接 考虑 。 相 反 ， 我 们 将 分 析 instar 进 
行 模 式 识别 的 能 力 ， 这 类 似 于 Hamming 网 络 的 第 一 层 神 经 元 (参见 3.2.3 节 )。 

instar 的 输入/ 输出 表达 陈 为 


a = hardlim(Wp + b) = hardlim(,w' p +b) (13.26) 
instar 神经 元 在 输 向 量 和 权 值 向 量 的 内 积 大 于 等 于 - 时 成 为 活跃 的 : 
iw p2- b (13.27) 


从 3.2.3 FEF Hamming 网 络 的 讨论 可 以 知道 ， 对 两 个 定 长 的 向 量 ， 它 们 的 内 积 在 其 
方向 相同 时 最 大 。 也 可 以 使 用 式 (5.15) 表 示 这 一 反 : 
iw p= w] | p || cos@ > - b (13.28) 
其 中 6 是 两 个 向 量 的 夹 角 。 易 见 当 6= 0 时 ， 内 积 最 大 。 如 果 p 和 1,w 有 相同 的 长 度 ( jp = 
lL1w jl )， 则 内 积 在 p= 1w 时 达到 最 大 。 
基于 上 述 讨 论 ， 图 13-5 的 instar 神经 元 在 p“ 接 近 ” 于 1w 时 将 是 活 贱 的 。 设 置 合 适 的 人 筷 
BA 5»， 就 可 以 选择 输入 向 量 和 权 值 向 量 的 接近 程度 ， 使 instar 神经 元 被 激活 。 
如 果 设 
b =- |,wi i pli (13.29) 
则 instar 神经 元 只 有 在 p 的 方向 精确 等 于 w 的 方向 (6 = 0) 时 才 活跃 。 因 而 ， 我 们 束 有 了 一 个 
只 能 识别 模式 1w 的 神经 元 。 
如 果 想 让 instar 能 响应 任何 接近 ,w(9 很 小 ) 的 模式 ， 那 么 可 以 增加 b 到 大 于 - 
(A, b 值 越 大 ， 就 有 越 多 的 模式 能 激活 instar 神经 元 ， 也 就 使 它 具 有 更 小 的 分 辨 率 。 
应 该 注意 ， 这 里 的 分 析 假设 所 有 的 输入 向 量 都 有 相同 的 长 度 ( 模 )。 我 们 将 在 第 14 ~ 16 
章 中 重新 考察 规格 化 问题 。 


wi | pi 的 
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如 果 我 们 知道 要 识别 那个 向 量 ， 现 在 可 以 设计 出 一 个 向 量 识别 网 络 。 然 而 ， 如 果 网 络 是 
无 监督 地 学 习 一 个 向 量 ， 将 需要 一 个 新 的 规则 ， 因 为 Hebb 规则 的 任何 形式 都 不 产生 规格 化 
的 权 值 。 

13.2.4 instar 规则 

带 衰减 的 Hebb 规则 的 一 个 问题 是 要 求 刺激 不 断 重复 ， 否 则 联想 就 会 丢失 。 一 个 更 好 的 
规则 可 能 只 在 instar 神经 元 是 活跃 时 允许 权 值 衰减 。 这 样 权 值 仍 被 限制 ,但 遗 扎 被 减 到 最 
小 。 再 次 考虑 Hebb 规则 的 原始 形式 。 

六 gg) = wylq - 1) + aa;(q)p,(q) (13.30) 
instar 规则 ”为 了 在 获得 权 值 况 减 的 同时 限制 遗忘 问题 ， 可 以 加 上 一 个 与 a;(g) 成 比例 
的 改 减 项 : 


Ww 


wig) = wyCq - 1) + aa;(q) pg) - Ya;(g) wig - 1) (13.31) 
可 以 设置 y 等 于 来 简化 (13.31) 式 (这 样 新 权 值 的 学 习 速 度 与 日 值 的 衰减 速度 相同 ) ， 并 合 
并 同类 项 


wi(g) = wylg-1) + aa;(q)(pCq) - wi(g - 1)) = (13.32) 
该 等 式 称 为 instar M2), SRB: 
;w(q) = iwlg - 1) + aa;(q)( plq) - iwlg - 1)) (13.33) 


如 果 考 虑 instar th BK (a; = 1 ) 的 情 祝 ， BL AY 以 很 好 地 理解 instar 规则 的 性 能 特点 。 ot 


(13.33) 可 以 号 成 
iw(q) = iwlg = 1) 十 a( pl gq) = iwlg = 1)) 
= (1 -a) ;w(g - 1) + ap(g) 
该 运算 可 以 由 图 13-6 RA. 


(13.34) 





13-6 instar 规则 的 图 形 表示 


当 instar 神经 元 活跃 的 时 候 ， 权 值 向 量 沿 着 旧 的 权 值 向 量 和 输入 向 量 连 线 向 输入 疝 量 方 
向 移动 ， 权 值 向 量 移动 的 距离 决定 于 a 的 值 。 当 a= 0 时， 新 的 权 值 向 量 等 于 旧 的 权 值 向 量 
(没有 移动 )。 当 a= 1 时 ， 新 的 权 值 向 量 等 于 输入 向 量 ( 最 大 移动 )。 如 果 a= 0.5， 则 新 的 权 


值 向 量 移动 到 旧 权 值 向 量 和 输入 回 量 正中 间 。 
instar 规则 的 一 个 有 用 特性 是 如 果 输 入 向 量 是 规格 化 的 ， 则 一 旦 im 学 习 了 一 个 特定 的 回 
量 p 后 也 会 成 为 规格 化 的 。 可 以 发 现 这 个 规则 不 仅 能 使 遗忘 减 到 最 小 程度 ， 并 且 在 输入 丫 量 


是 规格 化 时 使 权 值 向 量 也 是 规格 化 的 。 
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将 instar 规则 应 用 于 图 13-8 的 网 络 中 。 由 图 13-6, GAR 
输入 ; 一 个 表示 水 果 是 在 视觉 上 是 否 作 为 橘子 识别 (无 条 件 刺 
激 ); 男 一 个 包含 了 水 果 的 其 他 三 种 度量 (条 件 刺 激 )。 
网 络 的 输出 为 
a = hardlim(w" p° + Wp + b) (13.35) 
输入 p 的 元 素 被 限制 为 +1( 如 第 3 章 式 (3.2) 所 定义 )。 这 个 限制 
保证 p 是 规格 化 向 量 ， 其 长 度 为 |p| =Y3。p? 和 p 的 定义 为 











Z WT? 
“1 视觉 上 探测 到 橘子 | Z 
p= 人 were 图 13-7 
重量 
偏 置 值 29-2, 比 -| pz| = -3 稍 大 一 些 ( 见 式 (13.29) )。 
输入 硬 极限 神经 元 
视觉 上 是 酉 子 
测量 的 形状 
测量 的 质地 
测量 的 重量 





a = hardlim(w p? +W p +b) 


图 13-8 fais 


我 们 希望 网 络 在 橘子 的 视觉 和 响应 之 间 有 一 个 固定 的 联想 ， 故 可 以 设置 w 大于- 8。 但 一 
开始 ， 网 络 不 应 该 对 任何 水 果 测 重 值 的 组 合作 出 响应 ， 所 以 测量 权 值 设置 为 全 0。 


w? = 3, W(0) = ,w'(0) = [000] (13.37) 
测量 权 值 由 intar 规则 更 新 ， 其 中 学 习 速 度 a= 1, 
JIw(o) = lwg - 1) + a(g)(plg) ~ wg -1)) (13.38) 


训练 序列 包括 了 重复 出 现 的 橘子 信号 ， 测 量 值 每 次 都 给 出 。 但 为 了 说 明 instar 规则 的 操 
作 ， 我 们 假设 视觉 系统 由 于 构造 上 的 问题 只 在 偶数 步 又 运行 正 篆 。 
ei 


1 | : 
s 


-1 p (2) = 1,p(2) = 
-1 
13-13 由 于 W 初始 化 为 余 0， 故 instar MATTE B— MIE FE A A T BA 
a(1) = hardlim( w°p°(1) + Wp(1) ~ 2) 
l 
3x0+ oo] -| 
=l 


l 


p (1) = 0,p(1) = (13.39) 























: 13.40 
a(l) = hardlim ~2}=0 (无 啊 应 ) | 











由 于 神经 元 没有 响应 ， 权 值 ;w 并 不 由 instar 改变 。 


ww ai bbt.com OH OoO00o 


BIZF BMF AT 267 


iw(1) = 1w(0) + a(t) (p(1) - :w(0)) 


0 0 




















0 ] 
= 1 j |- 0 i 
0 | 0 0 
但 在 第 二 次 迭代 中 ， 除 对 橘子 测量 之 外 ， 神 经 元 对 橘子 的 视觉 刺激 产生 了 啊 应 。 
a(2)= hardlim( w°p°(2) + Wp(2) - 2) 
! (13.42) 


= hardlim 





1 (000) ~ 
-I 

ok Eh oA See y Bi T AS M E a EA a A, AUE Bw 成 了 棋子 测量 问 量 
H 0 


ajai ae 





iw(2)= ;w(1) + a(2)(p(2) - 1w(1)) 


























0 1 0 i 
(13.43) 

= | 0 + | — | 一 = — | 

0 — | 0 — | 


pa 2 BLE HY LAE AO RRS. ERRARE RE Se oe 
次 失效 时 ， 神 经 元 依然 产生 啊 应 。 
a(3) = hardlim(w' p°(3) + Wp(3) - 2) 
] 
3x0+1|1 en) 
- ] 
在 完全 学 习 了 测量 后 ， 权 值 向 量 停止 了 改变 。( 低 的 学 习 速 度 将 需要 更 多 的 迭代 次 数 。) 
Iw(3) = 1w(2) + a(3)(p(3) - 1w(2)) 
~ 1 


l ] l 
aj tias 
— | ~ | 


- ] - | 

一 - | 
此 时 网 络 在 视觉 检测 系统 失效 的 情况 下 ， 也 能 根据 测量 但 识别 橘子 。 
试验 instar 规则 请 用 Neural Design Demonstration Instar (nnd13is) 和 Graphical 
Instar (nnd13gis) 。 


a(3) = hardlim _21= 1 (EF) (13.44) 











(13.45) 


+1 





























Kohonen 规则 
此 时 可 以 引入 另 一 种 与 instar 规则 相关 的 联想 学 习 规则 ， 即 Kohonen 规则 : 
wg) = iw(g - 1) +a(p(g) -iwlg -1)), i€ X(q) (13.46) 

类 似 于 instar 规则 ，Kohonen 规则 允许 神经 元 的 权 值 学 习 输 入 癌 量 ， 因此 适合 于 识别 应 用 。 
5 instar 规则 不 同 的 是 学 习 并 不 正比 于 神经 元 的 输出 a;(g)。 它 的 学 习 发 生 在 神经 元 的 下 标 
i 是 集合 X (a) BRETo 

如 果 instar 规则 应 用 于 仅 返回 值 为 0 或 1 的 传输 函数 (如 硬 极 限 函 数 ) 的 -一 层 神经 元 时 ， 
Kohonen 规则 可 以 通过 将 X ( 0) 定 义 为 满足 a;(q) =l 的 所 有 i 的 集合 ， 从 而 与 instar 规则 等 
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fto Kohonen ALU ATC EEA A Bie ET FU A AR AE BR OE e] 
络 (第 14 章 中 介绍 ) 是 有 用 的 。 


13.2.5 简单 回忆 网 络 


outstar 前 面 已 经 看 到 instar 网 络 (有 一 个 向 量 输 入 和 一 个 标量 输出 ) 可 以 利用 将 特定 向 
量 刺激 与 响应 相 联想 来 实现 模式 识别 。 图 13-9 中 所 示 的 outstar 网 有 一 个 标量 输入 和 一 个 向 
量 输出 。 它 可 以 利用 一 个 刺激 和 癌 量 咽 应 之 同 的 联想 完成 模式 回忆 。 
这 个 网 络 的 输入 输出 表达 式 是 
a = Satlins( Wp) (13.47) 
之 所 以 选择 对 称 饱和 哨 数 (satlins) 是 为 了 把 网 络 用 于 回忆 包含 1 或 -1 AY Te 
输入 对 称 饱和 线性 层 
[ON 


P ny a, 


Wai 


P I>- 
NE pre Be 


Ne Nom 
a = satlins (Wp) 





图 13-9 outstar 网 络 


如 果 我 们 希望 网 络 将 某 种 刺激 (输入 1) 和 一 个 特定 输出 向 量 a* 联想 ， 可 以 简单 地 设置 

W( 它 仅 包含 一 个 单列 向 量 ) 等 于 a" 。 这 时 如 果 p =1， 输 出 将 是 a*: 
a = satlins( Wp) = satlins(a -1) = a“ (13.48) 

(其 中 假设 a” 的 元 素 都 是 小 于 或 等 于 1 的。) 

注意 ， 我 们 通过 把 权 值 矩阵 的 一 列 设 置 为 目标 向 量 来 构造 一 个 回忆 网 络 ， 而 在 前 面 则 是 
通过 设置 权 值 矩阵 的 一 行为 目标 问 量 来 设计 识别 网 络 的 。 

现在 可 以 设计 一 个 回忆 已 知 向 量 a 的 网 络 ， 但 需要 一 个 在 无 监督 答 件 下 学 习 同 量 的 学 
习 规 则 。 我 们 将 在 下 节 中 摘 述 该 学 习 规 则 。 


13.2.6 outstar 规则 


为 了 推导 instar 规则 ， 遗 忘 由 Hebb 规则 中 的 权 值 衰减 项 限制 为 与 网 络 的 竹 出 a; 成 比 
例 。 相 反 ， 为 了 得 到 outstar 学 习 规 则 ， 我 们 限制 权 值 训 减 项 与 网 络 答 和 p, 成 比例 : 


w,(q) = wy(q-1) + aa;(q) p,(q) 一 Yp, q) wilg - 1) (13.49) 
如 果 设 置 衰减 速度 y 等 于 学 习 速度 a 并 合并 同类 项 ， 有 
wi(qg) = wyCq- 1) + aCa;(g) — wig - 1))p,(g) (13.50) 


outstar 规则 的 特性 类 似 于 instar 规则 。 学 习 发 生 在 P BAF OVE a ) 0 当 学 习 发 生 的 时 
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候 ， 列 w 向 输出 向 量 方向 移动 。 
outstar 规则 正如 instar 规则 ，outstar 规则 可 以 写成 向 量 形式 : 


w,(g) = w.(g 一 1) + a(a(g) 一 wg 一 1)) pq) (13.51) 


为 了 检验 outstar 规则 , 我 们 将 训练 图 13-10 所 示 的 网 络 。 
输入 对 称 饱 和 线性 层 


0 n, Ql 回想 的 形状 
测量 的 形状 。 下 @- 

测量 的 质地 p? @w?,=1 

测量 的 重量 。 Dp; a 回想 的 质地 


YE m 
Lvs m a, 回想 的 重量 


RHE P | 
Wai 


WS Ne 
a = satlins (Wp? + Wp) 











图 13-10 ”菠萝 回忆 器 | 
人 | 
网 络 输出 由 a= satlins(W°p° + Wp) (13.52) 
计算 ， 其 中 
1 0 0 
w=/0 1 0 (13.53) 
0 0 1 








由 图 13-11， 网 络 的 两 个 输入 提供 了 对 水 果 的 测量 p (无 条 件 刺 
激 ) ， 以 及 表示 通过 视 党 确认 菠 葛 的 信号 p (条 件 刺激 )。 
形状 








p = | 质地 |,p = — T (13.54) i J aa 
Hi 
iA By a HH LER T Ret 9 a A RME, PA ee Ce 
什么 可 用 的 输入 。 


无 条 件 刺 激 的 权 值 矩阵 W 被 设置 成 单位 矩阵 ， 所 以 任何 
测量 值 集合 p2"( 取 + 上 1 值 ) 可 以 拷贝 到 输出 a ARBRE 
阵 W 一 开始 被 设置 为 0, 这样 p 为 1 时 就 不 产生 响应 ， 而 W 
用 outstar 规则 进行 更 新 ， 其 中 学 习 速 度 为 1: 

w Cq) = wig - 1) + (alq) - wg - 1)p(g) (13.55) 

训练 序列 包括 了 对 菠 葛 的 视觉 和 测量 的 重复 表示 。 菠 葛 的 测量 值 为 





270 AP LE P] $8. ik tf 








- ] 
pe? =| -1 (13.56) 
但 是 由 于 测量 系统 的 误差 ,测量 值 只 在 偶数 次 迭代 时 才 有 效 。 
0 a 
(13-18) vo -|0],p(1) = ee =| -1],p(2) = fo (13.57) 
0 1 














第 一 次 迭代 时 看 到 了 菠 葛 ， 但 测量 值 不 对 。 
a(1) = satlins(W p(1) + Wp(1)) (13.58) 











0 0 0 
a(1) = satlins|| O | +] 0 = | 0 (无 啊 应 ) (13.59) 
0 0 0 











网 络 看 见 了 菠萝 ， 但 不 能 输出 合适 的 测量 值 。 这 是 因为 它 还 没有 学 习 到 ， 且 测量 系统 没有 开 
始 工作 。 更 新 后 的 权 值 保持 不 变 。 















































0 0 0 0 
w(1) = wi(0) + (a(1) ~- w(0))p(1)=10|+II0|-I0|lll1=|0 1 (13.60) 
| 0 0 0 0 
第 二 次 迭代 时 ， 落 萝 被 看 见 ， 而 且 获 得 正确 的 测量 值 。 
~1 0 = 
a(2) = satlins}| -1 | +] 0 | el (给 出 测量 值 ) (13.61) 
1 0 1 
测量 值 是 可 用 的 ， 所 以 网 络 正 确 地 输出 这 些 测 量 值 。 权 全 更 新 如 下 : 
w, (2) = w,(1) + (a(2) ~ w,(1)) p(2) 
V ma 2 g i (13.62) 
= 0 十 一 l = l = — | 
0 l 0 ] 





























因为 可 同时 获得 菠萝 的 视觉 和 测量 值 ， 因 此 网 络 形成 了 两 者 之 间 的 联想 。 权 值 矩 阵 现 在 
13-19) ”是 测量 值 的 拷贝 ， 所 以 测量 值 在 以 后 就 可 以 回忆 。 

在 第 三 次 迭代 中 ， 测 量 值 再 次 成 为 不 可 用 的 ， 但 是 输出 为 
0 si 
0 -1 -1 
0 1 ] 

网 络 现在 即使 在 测量 系统 失效 时 ， 也 能 回忆 菠萝 的 测量 值 。 从 现在 起 ， 权 仁 只 有 在 菠 欧 
被 看 到 且 具 有 不 同 的 测量 值 时 才 会 发 生变 化 。 
w (3)= w,(2) + (a(2) - w,(2)) p(2) 


EVE) 


a(3) = satlins 二 = (回忆 的 测量 值 ) (13.63) 


























— 1 
I 


十 
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试验 带 衷 减 的 outstar 规则 请 用 Neural Network Design Demonstration Outstar 








Rule(nnd130s) 
第 16 章 中 ， 我 们 将 介绍 ART 网 络 ， 其 中 用 到 了 instar 规则 和 outstar 规则 。 13-20 
13.3 小 结 
联想 
联想 是 网 络 输入 和 输出 之 间 的 一 种 联系 ， 即 当 某 个 刺激 A 提交 网 络 后 ， 将 输出 一 个 啊 应 B。 
联想 学 习 规 则 
无 监督 的 Hebb 规则 
Wg) = Wg - 1) + aalg)p’ Cq) 
带 衰减 的 Hebb 规则 
Wg) = (1- YW(g - 1) + oa(g)p (g) 
instar 
输入 硬 极限 神经 元 
a = hardlim(Wp+b) 
a = hardlim(1w’p +b) 
当 ;wr7p= | iwl] pll cos 02 ~ b 时 instar 神经 元 被 激活 ， 其 中 6 是 p Hw 之 间 的 夹 
instar 规则 


:Ww(g) = iw(g — 1) + aa;(g)(plg) - iw(g - 1)) 


wla) = (1 -a)w(g -1) +ap(g)， 如 果 (ai(g) = 1) 二 





instar 规则 的 图 形 表 示 ( ai( gqg) = 1) 
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Kohonen 规则 
:Wg) = iw(g - 1) + a(plg) - iw(g -1)), iE X(g) 
outstar 
输入 对 称 饱 和 线性 层 
[N 
ni a, 
Wii 
Wri My a» 
p 
Ns as 
Ws, 
LY N 
a = satlins (Wp) 
outstar 规则 
wig) =w;(q-1)+alalg) - wg - 1)) p,q) 
13.4 例题 


P13.1 (13.19) SE) Hebb 规则 的 最 大 权 值 ， 其 中 假设 p, Ma 在 每 个 时 间 
步 都 为 1。 当 p, Ma AO] CAME, TARA. 

解 

Fe TM a SEA Hebb 规则 的 标量 形式 开始 

wi(q +1) = (1 - ¥)w, Cg - 1) + aa;(g) p,(q) 

当权 值 在 两 个 时 间 步 更 新 时 ， 可 以 用 a 作为 下 标 重 写 这 个 表达 式 两 次 。 

wi(qg+1)= (1-Yw,(gq)+aai(g)p,lq) 
wi(g +2) = (1 -Yw(qg+1)+aa(g+1)plg+1) 

将 第 一 个 式 子 代入 第 二 个 式 于 ， 得 到 w, 在 两 个 时 间 步 更 新 的 单一 表达 式 。 

wi(g+2) = (1 -Yy)(C1 -yw,(g)+aa(qg)p,(g)) + aai(g + Dplg+1) 

此 时 可 以 代 和 人 p Aa 的 值 。 由 于 我 们 在 计算 最 大 权 值 , 设 p,(g) 和 aila) Y O, 
p(q+ lA a;(q + 1) 为 1。 这 意味 着 在 第 一 步 权 值 减少 ， 而 第 二 步 权 值 增 加 ， 以 傈 证 
w,(g+2) 为 两 个 权 值 中 的 最 大 值 。 如 案 求 解 wj(g+2)， 有 

wi(g +2) = (l -7 wi(g)+a 

假设 w, 最 终 将 达到 稳定 状态 ， 或 可 以 设 wlat w QRR w AOR, FPF 

wie = (1 7 y) wp” +O 


max _ a 


2 2y-7 
我 们 用 MATLAB 绘制 这 个 关系 图 。 这 个 图 表示 在 相间 0.025 MAPK EDA ES Ae 





Ww 
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减速 度 。 

0:0.025:1; 

0.025:0,025:1; 

下 面 是 建立 最 大 权 值 的 格 网 图 的 命令 ， 最 大 权 值 是 学 习 速 度 和 衰减 速度 的 图 数 。 
(LR, DR] = meshgrid (dr, Ir); 


MW = LR ./(DR.* (2-DkR)); 
mesh(DR, LR, MW); 


图 中 显示 了 当 衰 减速 度 与 学 习 速 度 a 相 比 为 很 小 的 值 时 ，w?“ 趋 向 无 限 ( 见 图 13-12). 


RoR 


+o 
a. 
§ Sess ot es k ae 
0.7, 0, 00 OO tet fet te tnt et 
5 oe 地 qr a a, = = ae eee 
+ ora? hr et ag Oe ge Fy T e T ee 
ot "i at wh "i ~i i hh 本- ee ri a 
CE > a? e*, et ot oe ee en Oy ee 
Ae tott et Eee -T we ee © ee Pee Tete a 
ea -_ ee a ee a ee - 
cs oe oe eg Oe Oe ie ge Oe Oe en Pe Oe we Oy 
oe ae a 
“o 人 ee ee SO a ee eg Se Se a Oa Og Oe oe Se oF, 
-h a: a a M ee ee ee g 请 ee SO ee SE F T 
e r ee ee ey eee Se, ee Fe eT i 
上 E On +. *. ee ae a aa ee ee OS ne Pet ee a -Ta Pa T 
ee Oe Oe Og Og Oe ae en Oe eg te a ret oe * Fe ee Oe Oe ee ee 
ee ae ae ee F a a T ee ee Oe Se E a a 
Ea a E ee Oe Oe a a ae ee Oe Fe ee ee Oe Oe at 
en ea Oe a a a Ee a Et 
i i g S a i ne Oe ae ed -Mae Tar m m. a Yir 
ee E e ee i a E a hnn E i ee 
i a ne 本 二 
a a ee ee Oe ee ee ae T o A a M a ee ee a ee ae ee r 
ee Oe ae ee ee a et Ee ee FP we Fe Ma TO 
=- a S i aa a a enie a ee aT ee a ee a 
= i a a a ee a ee ee ge a a ee a F 
oi E a „4 = -= a a - a = -1 =r oe we T - am p a _ 
ee oe Oe SS a m ow "7 Ák fe ee a a TLT +- 
Ca =k Cinn” Se - ie Pn a pint - -_ Te -_ -æ = E = mte -_ "Tp A 
ee oe eg we an a a ee ee ae Oe a a a a a 
Cun Cni i m a = - "a -= am - a -_ ne al = = -到 pm y- a 
ae gen ee ee ee ee Se ea Fe me 
ee Oe ee ee ee Oe Fe ba Da i r r e 
-e a T M “Er - = = =~ i Wh r wll i 
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图 13-12 最 大 权 值 wp” 


P13.2 设 学 习 速 度 为 0.4， 用 instar 规则 训练 图 13-8 中 的 橘子 识别 网 络 。 使 用 相同 的 学 
习 序 列 ， 需 要 多 少 步 网 络 才 能 根据 测量 值 识别 一 个 袜子? 


解 
下 面 是 训练 序列 。 它 一 直 重 复 直 到 网 络 即使 在 视觉 系统 失效 (P =0) 时 也 能 对 橘子 的 测 


量 值 (p=Ll1 -1 -ij* ) 做 出 响应 。 
l | 


p (1) = 0,p(1) =| -| p' (2) = 1,p(2) 一 二 中 yet 
PE | _ 


我 们 用 MATLAB 来 求解 。 下 面 两 行 代码 设置 权 值 的 初始 值 。 


w0 = 3; 
w= [000]; 


然后 可 以 模拟 网 络 的 第 1 步 。 


DO = 0; 
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= (1; -1; -1]; 
hardlim(w0* p0 + W* p-2) 


oY DO 
H 


0 
神经 元 还 不 能 识别 橘子 ， 因 此 输出 为 0。 当 米 用 instar 规则 时 ， 权 值 并 不 改变 。 


W=W+0.4 a (p-W) 


W = 
000 
神经 元 开始 学 习 第 2 KEP KN RE 
p0 = l; 


p = [1; -1; -1 ]; 
a = hardlim (w0* p0 +W p-2) 


0) 
| 


I 
W + 0.4 a (p’-W) 


= 
1 


0.4000 -0.4000 -0.4000 
但 在 第 3 次 迭代 中 联想 仍然 不 够 强 而 不 能 作出 啊 应 。 


p0 = 0; 
p = [1; -1; -1]; 
a = hardlim(w0* p0 +W p-2) 


act 
0 
W=W+ 0.4 aa (p-wW) 
Wz 
13-25 0.4000 -0.4000 -0.4000 
act 
l 
W = 
0.6400 -0.6400 -0.6400 
第 5 次 迭代 : 
act 
0 
W = 


0.6400 -0.6400 -0.06400 
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此 6ER: 


a = 
i 
W = 
0.7840 -0.7840 -0.7840 


在 第 7 次 迭代 中 网 络 能 够 单独 根据 测量 值 识 别 橘子 。 


00 = Q; 
o> ihe el; 
a = hardlim(w0* p0 +W*p-2) 


a 
l 
W=W+0.4 a (p-W) 


W 


0.8704 -0.8704 -0.8704 
由 于 学 习 速 度 较 低 ， 网 络 必须 经 过 3 次 测量 值 和 响应 的 匹配 (偶数 次 迭代 ) 才 能 在 两 者 之 
间 建 立 强 的 联想 。 
P13.3 本 章 的 识别 和 回忆 网 络 都 只 能 学 习 一 个 向 量 。 男 一 个 能 识别 和 啊 应 下 述 两 个 辣 
量 的 网 络 图 并 确定 网 络 的 参数 ， 
= 
5 13-26 
网 络 只 能 响应 与 上 述 向 量 之 一 相同 的 一 个 输入 问 量 。 
解 


我 们 知道 因为 要 识别 三 元 输入 向 量 ， 网 络 必 须 有 三 个 输入 。 同 时 还 知道 网 络 有 两 个 炸 


出 ， 分 别 对 应 两 个 啊 应 。 
这 样 的 网 络 可 以 由 两 个 instar 神经 元 组 合 到 一 个 单 层 网 络 而 成 ， 如 图 13-13 所 不 。 











a = hardlim(Wp+b) 


图 13-13 ”两 向 量 识别 网 络 
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现在 设置 第 一 个 神经 元 的 权 值 ;w 为 p ， 所 以 当 输 入 癌 量 点 与 p; 方 回 相同 时 其 将 输入 达 
到 最 大 值 。 类 似 地 ， 设 置 ?w 为 p,， 这 样 第 二 个 神经 元 对 p, 方向 的 向 量 最 敏感 。 将 权 值 向量 


组 合成 权 值 矩 阵 
Wa we pi "i =5 4 
Lawr] [p] Ll-5 5 5 
(注意 ， 我 们 这 里 使 用 了 与 Hamming 网 络 第 一 层 相 同 的 确定 权 值 矩阵 方式 。 实 际 上 ，Ham- 
ming 网 络 的 第 一 层 就 是 由 instar 神经 元 构成 的 。 更 详细 的 讨论 请 见 下 一 章 。) 


pio p 的 长 度 相同 : 
13-27 Ip, | = [p| = V (5)? + (- 5)? + (5)? = v75 
为 了 保证 输入 向 量 和 引起 响应 的 存储 向 量 能 精确 匹配 ， 两 者 的 偏 置 值 依 式 (13.29) 可 设 
AUF: 


bi = b =- PAK = 一 六 
我 们 用 MATLAB 来 检查 网 络 确实 对 p 作出 啊 应 。 
Ww= [5 -5 5; -5 5 5]; 
b = [-75; -75]; 
pl = [5; -5; 5]; 
a = hardlim(W pl +b) 


a= 


l 
Q 


第 一 个 神经 元 作出 响应 ， 表 示 输 入 向 量 是 p 。 第 二 个 神经 元 没有 响应 ， 表 示 输 入 向 量 
不 是 p,。 还 可 以 检查 网 络 对 不 同 于 任何 一 个 存储 向 量 的 第 三 个 向 量 p 不 会 作出 响应 。 


Ce 
a = hardlim(W p3 +b) 
Aa = 
0 
0 
没有 一 个 神经 元 能 识别 这 个 新 的 向 量 ， 所 以 两 个 输出 都 为 0。 
P13.4 一 个 用 于 模式 识别 的 单 instar 神经 元 ， 它 的 权 值 和 偏 置 值 如 下 : 
W= wi =[l -1 -1], b=- 
一 个 输入 向 量 ( 长 度 为 /3) 与 权 值 向 量 接 近 到 何 种 程度 才能 使 神经 元 的 输出 为 1? 求 一 个 
向 量 ， 它 出 现在 能 识别 的 向 量 和 不 能 识别 的 阿 量 之 加 的 边 弄 。 
解 
我 们 先 写 出 神经 元 输出 的 表达 式 : 
a = hardlim(,w'p+ b) 
13-28) 由 hardlim 的 定义 ， 当 且 仅 当 1,w 和 op 的 内 积 大 于 或 等 于 ~b 时 a 才 为 1: 
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wp = liwl Il pl] cosd =- b 
代 换 范 数 并 求解 可 以 获得 满足 该 条 件 的 ,w 和 了 间 的 最 大 角度 
(V3)(V3)cos0 = 2 
0 三 cos? (£) = 48.19 
为 了 得 到 一 个 模 为 V3 的 边界 向 量 ， 需 要 求 一 个 向 量 p 满足 下 述 条 件 . 
I pil =v pt + pi + p3 = ¥3 
wp = 01pPI1+2W22p2z+2W03p3-0= pi~ Pa~ p3- 2 = 0 
由 于 有 三 个 变量 ， 而 只 有 两 个 约束 条 件 ， 可 以 设 第 三 个 变量 p =0， 并 求解 
V pit p3+p3=V3 > pit pj =3 
Pi- P2-pP3-2=0 = prt py =- 4 
(pz + pa)” = p)+ p3 + 2p2p3 = (- 2) = 4 
3+2pp3 = 4 = pop; = 9.9 
pop, 十 p3) = p? + P2P3 = p3 +0.5 = p,\- 2) =- 2P, 
稍 作 运算 求 出 p, 的 两 个 可 能 解 : 
p2+2p,+0.5=0 
p> =-1+ /0.5 
为 了 使 p, 满足 上 述 值 ，p, 要 取 以 下 值 : 
P2 t P3 =-1+V0.5+p3 =-2 
p3 =-1F v0.5 

因此 ， 下 述 p 是 与 w 有 合适 距离 的 可 识别 向 量 。 


0 
p = ER 
-1 -v0.5 
可 以 将 它 代 和 网络 验算 : 
a = hardlim(,;w'p+ b) 
0 
a = hardlim| [1 -1 -1]} -1+/0.5 {| -2 
~1-/0.5 


a = hardlim(0) = 1 
向 量 p 使 亡 输 入 为 0， 因此 它 在 instar 神经 元 活跃 区 的 边 务 上 。 
P13.5 考虑 图 13-4 中 所 示 的 instar 网 络 ， 这 个 网 络 的 训练 序列 包括 以 下 输入 : 


-1 
[ea = 0,p(1) = | HIRO = 1,p(2) -| i IE 
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这 两 个 输出 重复 提交 到 网 络 中 ， 直 到 权 值 矩阵 W AA, 
Ci) 用 学 习 速 度 = 0.5 执行 instar 规则 的 前 四 次 迭代 。 假 设 初 始 权 值 和 矩阵 W 被 设置 为 





RẸ., 
"13-30 (ii) 用 图 形 形 式 显示 instar MUN B—KERAR (AEA 13-6), 
输入 硬 极 限 神经 元 
a= hardlim(w? p? +W p +b) 
图 13-14 例题 P13.5 的 instar 网 络 
解 


Ci) BF W Mei Ws O, instar 神经 元 在 第 一 次 迭代 时 将 不 响应 测量 值 。 
a(1) = hardlim(w® p°(1) + Wp(1) =) 


all) = hardlim| 3 -0+ 10 of] - 2] = 0 


HATEAN o RAE instar MM), EKWA w 不 改变 。 
iw(1)= ;w(0) + 0.5a(1)(p(1) - ;w(0) ) 


ol lly] -Loll= to] 
= a 0 一 = 
0 Í 0 0 
由 于 第 二 次 迭代 时 出 现 无 条 件 刺激 ，instar 神经 元 将 啊 应 。 

a(2) = hardlim ( w? p°(2) + Wp(2) ~ 2) 





. — | 
a(2) = hardtim(3 +1 + [0 0] | i | -2)=1 


13.31 神经 元 产生 了 响应 ， 且 它 的 权 值 ,w 根据 instar 规则 更 改 。 
IW(2) = 1w(1) + 0.5a(2)(p(2) - 1w(1))- 


-lol ros) -tod)= [od 
第 三 次 迭代 时 ， 无 条 件 刺 激 没 有 出 现 ， 而 且 权 值 没有 收敛 到 与 输入 模式 足够 接近 ， 因 此 ， 


instar 神经 元 不 啊 应 。 
a(3) = hardlim (w® p°(3) + Wp(3) ~ 2) 


a(3) = pardlim | 3 x0+[|-0.5 0.5]| | 一 2 =: 0 


由 于 神经 元 不 响应 ， 它 的 权 值 也 不 发 生 改 变 。 
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;w(3) = ;w(2) + 0.5a(3)(p(3) — ,w(2)) 
Pe lee e Pei 
= 十 0 — = 
0.5 J 0.5 0.5 
由 于 无 条 件 刺激 在 第 四 次 迭代 中 再 次 出 现 ，instar 4A ICRF AE D o 
a(4) = hardlim ( w’ p°(4) + Wp(4) sD) 


a(4) = hardlim( 3 x~14+{-0.5 0.5], "| -2 = | 


由 于 instar 神经 元 被 激活 ， 它 的 权 值 也 要 更 新 。 
iw(4) = ;w(3) + 0.5a(4)(p(4) — 1w(3)) 


-os 


这 完成 了 第 四 次 迭代 。 如 果 我 们 继续 下 去 ，1w 将 收敛 于 po 

(让) 注意 到 权 值 仅 在 第 二 和 四 次 迭代 (instar 神经 元 活跃 ) 时 改变 。 回 忆 式 (13.34)， 当 
instar 神经 元 活跃 时 ， 学 习 规 则 可 写 为 

IW(g) = wC g -1)+ a(p(q) = iw g -1)) = (1 - a) wg -1)+ ap(q) 

“4 instar PRAJEM ERIT, BU GA CE e AS A dL) FA m ET 
向 移动 。 图 13-15 显示 了 本 题 中 权 值 向 量 的 移动 。 权 值 在 第 二 和 四 次 近代 时 更 新 。 由 于 
a=0.5, 当 instar 神经 元 活跃 时 权 值 向 量 将 从 当前 位 置 移动 到 输入 向 量 的 中 心 位 置 。 

iw(g) = (0.5) 1w(g - 1) + (0.5)p(g) 








图 13-15 instar 规则 的 例子 


13.5 ”结束语 


本 章 中 介绍 了 一 些 能 产生 联想 的 简单 网 络 ， 同 时 还 研究 了 使 网 络 产生 新 联想 的 学 习 规 
则 ， 每 条 规则 通过 增强 同时 发 生 的 刺激 和 响应 之 间 的 联想 发 生 作用 。 

简单 的 联想 网 络 和 学 习 规 则 本 身 就 很 有 用 ， 而 它们 也 是 构成 更 强 网 络 的 重要 单元 。 本 章 
介绍 的 两 种 网 络 和 相关 的 学 习 规 则 是 下 面 三 章 讨论 的 一 些 重 要 的 网 络 的 基础 。instar 网 络 用 
于 训练 识别 某 种 模式 ，outstar 网 络 则 用 于 训练 回忆 模式 。 我 们 将 在 第 14 和 15 PHA instar 
网 络 层 进行 模式 识别 。 这 些 网 络 非常 似 于 第 3 章 的 Hamming 网 络 ( 它 的 第 一 层 事 实 上 是 由 
instar 神经 元 构成 )。 第 16 章 将 介绍 一 个 更 复杂 的 网 络 ， 它 将 instar 和 outstar 组 合 在 一 起 产 
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1334] 生 稳定 的 学 习 。 


| 13-35 | 


| 13-36| 
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1990. 
这 是 一 本 优秀 的 行为 心理 学 书籍 。 这 个 领域 对 于 用 神经 网 络 模拟 人 类 (或 动物 ) 学 习 
的 任何 人 而 言 都 是 很 有 兴趣 的 。 


习题 
E13.1 图 13-16 中 的 网 络 使 用 带 训 减 的 Hebb 规则 进行 训练 ， 其 中 学 习 速 度 w=0.3， 和 村 
WER y=0.1 
(i) 如 果 w 初始 化 为 0，w?° 和 5 保持 常数 (如 图 13-16 所 示 )， 需 要 将 下 面 的 
训练 集 连 续 输 入 网 络 多 少 次 才能 使 神经 元 响应 测试 集 ” 绘 制 w 与 迭代 次 
数 的 关系 图 : 
训练 集 : 1p0=1，p=1， 测试 集 : [p"=0, p=1] 
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(ii) WR w 初始 化 为 1， 需 要 将 下 述 训练 集 连 续 输 入 网 络 多 少 次 才能 使 神经 元 
啊 应 测试 集 ?” 绘制 w 与 迭代 次 级 的 关系 图 : 
训练 集 : 1p"=1， p=0i, WAR: 1p =0, p=11 
输入 硬 极 限 神经 元 





a = hardlim(wp + wp +b) 


图 13-16 联想 网 络 


E13.2 对 练习 E13.1 的 问题 (i)， 用 式 (13.19) 确 定 w 的 稳定 状态 值 ， 斤 练习 E13.1 问 
题 (i) 的 图 验证 这 个 结果 。 
E13.3 重复 练习 E13.1, 但 此 时 用 无 衰减 (Y=0) 的 Hebb 规则 。 
E13.4 下 述 规 则 类 似 于 instar 规则 ， 但 它 的 表现 有 很 大 不 同 : 13-37 
oo) 


Aw; =- aa;{ p, + Wi 


Ci) 确定 Aw, HAE 0 的 条 件 。 
Cii) 当 Aw; 非 0 时 权 值 逼近 于 多 少 ? 
(iii) 考虑 该 规则 有 了 哪些 用 途 ? 

E13.5 图 13-17 中 的 instar 网 络 用 以 识别 向 量 。 





a = hardlim (wopo + Wp +b) 


图 13-17 向量 识别 器 
(i) 用 instar 规则 和 下 述 训练 序列 训练 网 络 。 只 将 instar 规则 用 于 第 二 个 输入 权 值 
(初始 化 为 0) ， 使 用 学 习 速 度 0.6。 其 他 权 值 和 偏 置 值 保 持 为 图 中 所 示 的 党 
数 。( 可 以 用 MATLAB 完成 计算 。) 


i [0.174 a vod: 
(a w a Has © as] ft (2) = 0, pl2) = | 0 ogs 
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0 _ E pedi (p E co | 
f ae Oe Bene 8 pee p (4) = 0, pd) = | 0.985 


i 7 E oel 7 i -| | 
P (5)= l; p(5) = ae p (6) = 0, p(6) = 0.985 


(ii) 最 后 的 W 值 是 多 少 ? 
13-38 (Gii) 最 后 的 值 与 训练 序列 中 的 向 量 相 比如 何 ? 
(iv) 如 果 网 络 用 相同 的 训练 序列 迭代 多 次 ， 权 值 在 训练 后 的 数值 应 该 古 多 少 ? 
E13.6 考虑 图 13-18 中 的 instar 网 络 ， 网 络 的 训练 序列 将 由 下 列 输入 组 成 : 


| = 0, pil) = |! lh. [ea _ 1, p(2) = | |i 


这 两 个 输入 集 重 复 输 入 网 络 直至 权 值 矩 阵 W 收敛 。 

(i) 执行 instar 规则 的 前 8 次 迭代 ， 其 中 学 习 速 度 a= 0.25。 假设 权 值 矩阵 W 
的 初始 值 为 W= i1 0J。 

(ii) 用 图 形 方 式 显 示 每 次 迭代 的 结果 (如 图 13-6 所 示 )。 





a = hardlim(w©p) +W p +b) 


图 13-18 “习题 E13.6 的 instar 网 络 
E13.7 画 出 当 给 定 不 同 的 刺激 ( 值 为 1) 时 能 识别 三 种 不 同 的 四 元 素 向 量 ( 元 素 值 为 + 1) 


的 网 络 图 。 
(i) 网 络 应 有 多 少 个 输入 和 输出 ”传输 函数 是 什么 ? 
113-39| (ii) 如 果 它 能 识别 下 述 向 量 ， 请 给 出 网 络 的 权 值 : 
l = l 
-1 4 = | 
Bi = l ; Po = 1 P; = — | 
— | 一 | | 


(iii) 选择 合适 的 偏 置 值 ， 并 解释 原因 。 

(iv) 用 上 述 向 量 之 一 检查 网 络 。 它 的 响应 正确 吗 ? 
-1 

Cv) 用 向 量 p =| ， | 检查 网 络 。 它 的 响应 为 什么 是 正确 的 ? 
! 
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E13.8 本 章 包含 一 个 识别 网 络 的 例子 ， 最 初 用 视觉 系统 来 识别 橘子 。-- 开 始 需要 完 筑 
系统 通知 网 络 何 时 有 橘子 ， 但 最 后 网 络 学 习 了 用 传感器 的 测量 来 识别 橘子 。 
(i) 让 我 们 用 人 来 代替 视觉 系统 。 一 开始 网 络 依靠 人 告诉 它 是 后 有 桶 了 于。 你 认 

为 此 时 的 网 络 是 有 监督 学 习 还 是 无 监督 学 习 ? 

(ii) 在 何 种 情况 下 ， 人 的 输入 类 似 于 前 面 几 章 中 用 于 有 监督 训练 的 目标 ? 
(iii) 它 在 什么 情况 下 是 不 同 的 ? 

E13.9 图 13-19 的 网 络 安装 在 一 个 电梯 中 ， 该 电梯 在 一 个 察 华 和 
高 度 安全 的 公司 大 厦 中 由 三 个 高 级 执行 官 使 用 ， 它 有 标 
记 “1” 到 “4” 的 4 个 按钮 表示 底层 上 面 的 四 层 。 当 一 个 执 
行 官 进入 电梯 底层 后 ， 电 梯 用 视网膜 扫描 的 方式 判断 是 
谁 ， 并 用 网 络 决 定 这 个 人 最 可 能 去 的 楼 层 。 如 果 猜 测 不 
对 ， 这 个 人 可 以 在 任何 时 候 按 不 同 的 按钮 ， 否 则 它 将 省 





去 这 个 重要 执行 官 的 按钮 动作 。 
网 络 的 输入 /输出 消 数 为 rr 
a= hardlims(W’ p° + Wp + b) 


输入 对 称 硬 极限 层 





J 
a = hardlims(W°p° + W p + b) 


图 13-20 电梯 网 络 
当 按 钮 按 下 时 第 一 个 输入 p 提供 网 络 一 个 楼 层 代 码 ( 图 13-21)。 


> f[-1 p [1 
上 -| | iic a lial 
+f 本 | 
中 = | | G® w- | ate) 
如 果 没 有 按 按钮 ， 则 无 代码 。 
= | ”| (没有 按 按 包 ) 


第 一 个 输入 由 一 单位 矩阵 加 权 ， 且 偏 置 值 设 为 -0.5， 这 样 如 果 按 了 “1 
按钮 ， 网 络 将 响应 出 楼 层 代码 。 
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13-41 


13-42) 


FP LE (IB 1K tf 








Wet, bsf 03] 
-0.5 
第 二 个 输入 总 是 存在 的 。 它 包含 的 三 个 元 素 代表 了 三 位 执行 官 
] 0 有 
p =|0 | (总 裁 )，m = | 1 |( 副 总 裁 )， p = | 0 | (Bak) 
0 0 | 














网 络 通 过 用 outstar 规则 (学 习 速 度 为 0.6) 更 新 第 二 组 权 值 ， 学 习 回 忆 三 位 执行 
官 所 在 的 楼 层 。 这 些 权 值 最 初 均 设置 为 零 : 


W = 








0 0 0 
0 0 0 
0 0 0 
( i) 用 MATLAB 模拟 下 列 事件 的 网 络 ， 
总 裁 按 按钮 “4' ， 副 总 裁 按 按钮 ‘3’ 
董事 长 按 按钮 “1 " ， 副 总 裁 按 按钮 “3， 
董事 长 按 按钮 “2’ ， 总 裁 按 按钮 “4， 
换 句 话说 ， 用 下 述 序列 训练 网 络 : 
ip = po Pp=pi [P =P P=pl Ip =P» p= pi|， 
IP =p p=pl,lp =p, p=Pioip =p P= Pp! 
(ii) 最 后 的 权 值 是 什么 ? 
(iii) 现在 继续 对 下 述 事件 模拟 网 络 : 
总 裁 不 按 按钮 
副 总 裁 不 按 按钮 
董事 长 不 按 按钮 
(iv) 网 络 把 每 位 执行 官 送 到 哪 一 楼 层 ? 
(v) 如 果 三 位 执行 官 分 别 按 下 述 按钮 许多 次 ， 你 期 望 得 到 的 权 值 矩阵 是 什么 形 
式 ? 
总 裁 按 按钮 “3 
副 总 裁 按 按钮 “2° 
董事 长 按 按钮 “4 
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14.1 目的 


第 3 章 所 介绍 的 Hamming 网 络 ， 展 示 了 一 种 用 神经 网 络 进行 模式 识别 的 技术 ， 这 种 技 
术 需 要 事先 知道 原型 模式 并 且 将 原型 模式 以 权 值 矩 阵 的 行 和 网 络 相 结合 。 

本 章 我 们 将 讨论 一 些 在 结构 以 及 操作 上 都 与 Hamming 网 络 极为 相似 的 网 络 。 与 Ham- 
ming 网 络 不 同 的 是 ， 这 些 网 络 使 用 第 13 章 的 联想 学 习 规则 对 模式 分 类 进行 自 适应 学 习 。 本 
章 介 绍 了 三 种 这 样 的 网 络 : 竞争 网 络 、 特 征 图 网 络 和 学 习 矢量 量化 网 络 。 14 


14.2 理论 和 实例 


Hamming 网 络 是 竞争 网 络 中 最 简单 的 例子 。 它 的 输出 层 神经 元 互相 竞争 以 确定 胜 者 。 
胜 者 将 指出 哪 一 种 原型 模式 最 能 代表 袜 人 模式 。 这 种 竞争 是 通过 在 输出 层 神 经 元 之 间 一 组 负 
连接 ( 即 侧 向 抑制 ) 来 实现 的 。 本 章 我 们 将 说 明 这 种 竞争 何以 能 够 与 第 13 章 中 的 联想 学 习 规 
则 相 结 合 来 建立 强大 的 日 组 织 ( 无 监督 的 ) 网 络 。 

早 在 1959 年 ，Frank Rosenblatt 就 创造 了 一 种 简单 的 “自发 ”分 类 关 ， 这 是 种 基于 感知 机 
的 无 监督 的 神经 网 络 。 这 种 网 络 能 够 学 会 将 输入 的 矢量 分 类 成 数目 大 致 相等 的 两 类 。 

在 20 世纪 60 年 代 后 期 及 70 年 代 早 期 ，Stephen Grossberg 引入 了 许 多 使 用 侧 向 抑制 而 
产生 良好 效果 的 竞争 网 络 。 他 获得 的 有 用 特性 就 是 减少 噪声 、 对 比 增加 和 向量 规格 化 。 第 
15 章 及 第 16 章 将 讨论 他 的 这 些 网 络 。 

1973 Æ, Christoph von der Malsburg 引 人 了 一 种 自 组 织 的 学 习 规 则 ， 这 种 规则 用 这 样 方 
法 归 类 输入 ， 使 得 相 邻 的 神经 元 对 相似 的 输入 产生 反应 。 他 这 种 网 络 的 拓扑 绪 构 以 某 些 方式 
模仿 David Hubel 和 Torten Wiesel 过 去 所 发 现 的 猫 的 视觉 皮层 的 结构 。 他 的 学 习 规 则 引起 了 
人 们 极 大 的 兴趣 ， 但 是 这 种 学 习 规则 使 用 一 种 非 局 部 计算 以 保证 权 值 是 规格 化 的 。 这 使 得 它 
在 生物 学 上 缺少 合理 性 。 

Grossberg 重新 发 现 instar 规则 (在 第 13 章 中 介绍 过 )， 从 而 发 展 了 von der Malsburg 的 
RÆ (instar 规则 首先 是 由 Nils Nilsson 1965 年 在 他 的 《学 习 机 器 和 Learning Machines )—? 
首先 介绍 的 ) Grossberg 证 明了 instar 规则 免 去 了 重新 规格 化 权 值 的 必要 性 ， 因 为 学 习 规 格 
输入 向 量 的 权 值 向 量 能 够 自动 使 自己 规格 化 。 

Grossberg 和 von der Malsburg 的 工作 着 重 于 他 们 的 网 络 在 生物 学 上 的 合理 性 。 故 一 位 颇 
具 影 响 力 的 研究 者 Teuvo Kohonen 也 是 竞争 网 络 的 积极 提议 者 。 然 而 他 的 重点 主要 在 网 络 的 
工程 应 用 以 及 有 效 的 数学 描述 。20 世纪 70 年 代 中 ， 他 发 展 一 种 instar 规则 的 简化 形式 ， 并 
HÆ von der Malsburg 和 Grossberg 的 局 发 ， 发 现 一 种 有 效 的 将 拓扑 结构 结合 为 吏 争 网 络 的 
方法 。 

在 本 章 我 们 集中 讨论 Kohonen 的 竞争 网 络 框架 ， 他 的 模型 体现 了 竞争 网 络 的 主要 特征 ， | 14-2 | 
而 且 也 比 Grossberg 的 网 络 在 数学 上 更 易 处 理 。 这 些 网 络 为 范 争 学 习 提 供 了 民 好 的 说 明 。 
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我 们 将 从 简单 的 竞争 网 络 开始 。 然 后 将 结合 网 络 拓扑 结构 讲解 自 组 织 特征 图 。 最 后 我 们 
将 讨论 学 习 向 量 量 化 。 它 将 竞争 和 有 监督 的 学 习 框 架 结 合 起 来 。 
14.2.1 Hamming 网 络 


既然 本 和 草 所 讨论 的 竞争 网 络 与 Hamming 网 络 ( 见 图 14-1) 紧 密 相 关 ， 所 以 先 回顾 一 下 
Hamming 网 络 的 一 些 主要 概念 。 





a! = purelin(W'p +b!) a2(0) = a! a?(t+ 1) = poslin (W2a2(¢)) 


图 14-1 Hamming 网 络 


Hamming 网 络 由 两 层 组 成 。 第 一 层 ( 有 insta 的 那 一 层 ) 将 输入 向 量 与 原型 向 量 联系 起 
来 。 第 二 层 采 用 殉 争 方式 决定 哪 种 原型 向 量 最 接近 输入 向 量 。 

1. 第 一 层 

从 第 3 章 知 道 ， 一 个 instar 只 能 够 识别 一 种 模式 。 为 了 能 够 识别 多 种 模式 ， 就 必须 有 多 
种 instar, Hamming 网 络 实现 了 这 一 点 。 

假设 要 让 网 络 识别 以 下 原型 向 量 : 


(Pi P2" Po) (14.1) 
BZK W, WENE b 是 
w’ Pi R 
T T 
wel ji) P| waj “ (14.2) 
w Po R 


矩阵 W 的 每 一 行 都 代表 我 们 想 要 识别 的 一 种 原型 问 量 ，b 的 每 个 元 素 都 设 为 等 于 每 个 
输入 向 量 的 元 素 个 数 RR( 神 经 元 个 数 S 等 于 将 识别 的 原型 问 量 的 个 数 Q )。 


第 一 层 的 输出 是 
T 
ppt+k 


'p+ R 
a = Wp+b! =| PP (14.3) 


T 
Pop + R 
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注意 : 第 一 层 的 输出 等 于 原型 向 量 与 输入 的 内 积 再 加 上 Ro EWRIER 3 3.2.37 
讨论 的 那 桩 ， 这 些 内 积 表明 原型 加 量 与 输入 同 量 之 间 的 接近 程度 。( 也 见 13.2.3 他 对 instar 
的 讨论 。) 

2. 第 二 层 

在 第 13 章 对 instar 的 讨论 中 ， 使 用 了 硬 极 限 传输 胃 数 来 确定 输入 回 量 离 原型 癌 量 是 否 
Bit, 在 Hamming 网 络 的 第 二 层 有 多 个 instar， 因 此 必须 确定 哪个 原型 向 量 与 输入 最 为 接 
近 。 我 们 将 会 使 用 一 个 竞争 层 而 不 是 硬 极限 传输 郴 数 来 选择 最 为 接近 的 原型 ; 

第 二 层 是 竞争 层 。 这 一 层 的 神经 元 用 前 馈 层 的 输出 初始 化 ， 这 些 输出 指明 了 原型 模式 与 
办 人 问 量 的 相互 关系 。 然 后 神经 元 相互 苑 争 以 确定 胜 者 。 兑 争 过 后 ， 只 有 一 个 神经 元 有 非 零 
输出 。 获 胜 的 神经 元 指明 输入 属于 嘟 类 (每 个 原型 器 量 代表 一 个 类 )。 

第 一 层 的 输出 a 用 来 初始 化 第 二 层 : 

a (0) = ai (14.4) 
然后 第 二 层 的 输出 用 如 下 递归 关系 更 新 : 
a(t +1) = poslin(W’a’(i)) (14.5) 

第 二 层 的 权 值 矩阵 W 的 对 角 线 元 率 都 被 设 为 1， 不 在 对 角 线 上 的 元 素 ， 设 为 菜 个 小 的 
MŽ: 

wi, = ( ~~ (其 中 0 <e < | (14.6) 
横向 抑制 ”这 个 矩阵 产生 横向 抑制 ， 即 每 个 神经 元 的 输出 都 将 对 所 有 其 他 的 神经 元 产生 
一 种 抑制 作用 。 为 了 说 明 这 种 效果 ， 用 1 和 -*e 的 权 值 代入 W 中 合适 的 元 素 。 | 


at(t +1) = postin{ a2() 一 Dako) (14.7) 


每 次 迭代 ， 每 个 神经 元 的 输出 都 会 随 着 所 有 其 他 神经 元 输出 的 和 按 比 例 下 降 (最 小 的 输 
出 为 0)。 初 始 状态 最 大 的 神经 元 比 起 其 他 神经 元 的 输出 降 得 慢 一 些 。 最 终 这 个 神经 元 将 成 
为 惟一 一 个 有 正 值 输出 的 神经 元 。 这 时 网 络 已 达到 了 稳定 状态 。 第 二 层 神 经 元 中 有 稳定 正人 
给 出 的 神经 元 是 和 输入 匹配 得 最 好 的 原型 向 量 的 那个 神经 元 。 

胜 者 全 得 ”因为 只 有 一 个 神经 元 有 非 零 输出 ， 这 就 被 叫 作 胜 者 全 得 竞争 ， 在 第 15 章 我 
们 将 讨论 这 种 竞争 。 

如 果 想 试验 Hamming 网 络 如 何 解决 莘 果 、 橘 子 的 分 类 问题 ， 可 以 用 第 3 章 介 绍 过 的 
Neural Network Design Demonstration Hamming Classification’ nm @Bhame) . 





14.2.2 竞争 层 
竞争 “Hamming 网 络 的 第 二 层 的 神经 元 激活 自己 而 抑制 所 有 其 他 神经 元 ， 这 就 叫做 苋 
争 、 为 了 简化 本 章 余 下 部 分 的 讨论 ， 我 们 将 定义 一 个 传输 函数 ,来 作 一 个 递归 竞争 层 所 做 的 


工作 : 
a = compet(n) (14.8) 


它 找到 最 大 净 输 入 的 神经 元 的 下 标 ， 并 将 其 输出 设置 为 1( 最 低下 标的 韶 经 元 的 将 受到 
束缚 )。 所 有 其 他 的 输出 都 设置 为 0。 
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b- aisa 
a, = | (其 中 n* > no; Yi, Hi <i, Vn; == n.* ) (14.9) 
0, isi 


用 一 个 作用 于 第 一 层 的 竞争 传输 函数 代替 Hamming 网 络 的 递归 层 ， 将 简化 此 章 的 讨论 
(我 们 将 在 第 15 章 进一步 讨论 竞争 过 程 的 细节 )。 竞 争 层 如 图 14-2 fra. 
输入 竞争 层 
(Nf NN 





a = compet(Wp) 


图 14-2 ”竞争 层 
正如 Hamming 网 络 那样 ， 原 型 回 量 存储 于 W 矩阵 的 每 行 之 中 ， 净 输入 n 计算 输入 癌 量 
p 各 原 每 个 原型 ,;w 之 间 的 矩 离 ( 假 设 同 量规 格 化 长 度 为 L)。 每 个 神经 元 i PRA ni Mp 
与 原型 器 量 ,w 之 间 的 夹 角 09. 成 正比 ， 


iwi wp L*cos 6, 
T T 2 
n = Wp = m p 三 p = : Tos M2 (14.10) 
sw’ sW'p L*cos 4, 
$e FH (hm PA BOT UE Ie a Sa A PB RA a EY 1: 
a = compet( Wp) (14.11) 


要 试验 竞争 网 络 和 苹果、 橘子 分 类 问题 ， 请 用 Neural Network Design Demon- 
stration Competitive Classification (nnd14cc) 5 


1. 竞争 字 习 
我 们 现在 可 以 通过 把 W 矩阵 的 行 设置 为 理想 原型 向 量 值 而 设计 出 一 个 竞争 网 络 的 分 类 
器 。 然 而 ， 我 们 宁愿 有 一 个 学 习 规 则 ， 在 不 知道 原型 向 量 的 情况 下 用 来 训练 竞争 网 络 的 权 


值 。 其 中 一 个 这 样 的 学 习 规 则 就 是 第 13 章 中 讨论 的 instar 规则 
:Wg) = iw(g - 1) + aa;(q)(plq) - wg - 1)) (14.12) 
对 于 竞争 网 络 ; a 只 对 竞争 获胜 神经 元 是 非 零 的 。 因 此 ， 能 够 从 Kohonen 规则 中 得 到 相 


同 的 结果 。 
:Wg)= iw(g - 1) + alplq) - :W(q - 1)) 


= (1 -a) ;wlg - 1) + ap(gq) 


:Wlgq) = Whe -1), ii (14.14) 


(14.13) 


而 
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动 。 它 沿 着 权 值 矩阵 原 有 行 与 输入 向 量 之 间 的 连 线 移动 ， 如 图 14-3 所 示 。 





图 14-3 Kohonen 规则 的 图 示 
现在 用 图 14-4 的 6 个 向 量 来 演示 竞争 层 如 何 学 习 分 类 疝 量 。6 NEN: 


- 0.1961 0.1961 0.9806 
p; = 9 p> = ? P3 = ; 


0.9806 0.9806 0.1961 
(14,15) 
| 0.9806 | | | 
Ps =| _0.1961]? P5 > _0.8137]’ Pe |. 0.5812 47 


我 们 的 竞争 网 络 有 3 个 神经 元 ， 因 而 它 可 以 将 向 量 分 成 3 类。 下 面 是 “随机 选择 的 规格 
化 初始 权 值 : 


T 


0.7071 0.7071 — 1.0000 了 
w=] |, 2 >| |. 3 «| |. W =! oW (14.16) 
— 0.7071 0.7071 0.0000 
aw 
数值 向 量 如 图 14-5 所 示 ， 其 中 权 值 向 量 用 箭头 表示 。 我 们 将 p, 提交 给 网 络 ， 


Pi P 
sW 
7 p 
3W 
' P4 
P6 w 


P5 





图 14-4 ”样本 输入 向 量 图 14-5 


0.7071 -0.7071 
[0126] | 
0.9806 


a= compet(Wp,) = | 0.7071 0.7071 


— 1.0000 0.0000 
- 0.5547 
0.8321 


0 
=) J 
- 0.1961 0 


第 2 个 神经 元 的 权 值 向 量 与 p 最 接近 ， 因 而 它 竞争 获胜 (i* = 2)， 且 输出 为 1。 现 在 应 


(14.17) 


= compet 
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FA Kohonen 学 习 规 则 ， 其 中 学 习 速 度 a =0.5. 


A 三 swt 到 al p, sw) 
本 I bene) [0:4516 (14.18) 
= 109.7071! * ‘"\L0.9806} Lo.7071 // 10.3438 


Kohonen 学 习 规则 将 ,w 移 近 至 p,， 正 如 图 14-6 中 所 示 。 如 果 不 断 随机 选择 输入 向 量 并 


”有 上 且 将 它们 输入 网 络 ， 那 么 每 次 选 代 与 输入 向 量 最 近 的 权 值 回 量 与 将 会 占 输 入 问 量 移动 。 最 终 


每 个 权 值 回 量 将 指向 输入 回 量 的 不 同 复 。 每 个 权 值 癌 重 会 变 成 不 同 的 得 的 原型 癌 量 。 
这 个 问题 是 足够 和 击 单 的 ， 以 至 能 够 预计 哪个 权 值 问 量 将 指 回 那个 得,， 最 终 的 权 值 回 量 将 
会 如 图 14-7 中 所 示 。 





图 14-6 图 14-7 最终 的 权 值 图 14-8 


一 旦 神经 网 络 学 会 了 如 何 将 输入 问 量 分 类 ， 那 么 对 于 新 问 量 它 也 将 同样 分 类 ， 如 图 14-8 
所 示 。 阴 影 表 示 每 个 神经 元 将 作出 啊 应 的 区 域 。 苑 争 层 通过 使 权 值 向 量 最 接近 输入 同 量 p 的 
神经 元 的 输出 为 1 为 每 个 输入 问 量 p 指定 给 这 些 类 中 的 一 个 。 
Ps 试验 竞争 学 习 请 使 用 Neural Network Design Demonstration Competitive Learning 
SA (nndl4cl), 





2. Z$ PAAA FM 

竞争 网 络 能 够 进行 有 效 的 自 适应 分 类 ， 但 它 仍 存 在 一 些 问 题 。 第 一 个 问题 就 是 学 习 速 度 的 
选择 使 得 不 得 不 在 学 习 速 度 和 最 终 权 值 向 量 的 稳定 性 之 则 进行 折衷 ( 见 图 14-9)。 一 个 接近 0 的 
学 习 速 度 意味 着 慢 速 的 学 习 。 然 而 ,一 旦 权 值 向 量 到 达 一 个 艇 的 中 心 ， 它 将 保持 在 中 心 附 近 。 

相反 ， 接 近 1.0 的 学 习 速 度 将 导致 快速 学 习 。 AM, 一旦 权 值 向 量 到 达 一 个 租 ， 它 将 作 
为 它 所 代表 的 簇 中 的 不 同 问 量 来 回 振荡 ( 见 图 14-10). 





稳定 E m 
A 

a=0 以 = | 

I 14-9 图 14-10 


有 时 这 种 在 快速 学 习 和 稳定 性 之 间 的 折 囊 能够 带 来 好 处 。 初 始 训练 对 于 快速 学 习 可 以 用 
大 的 学 习 速 度 来 完成 。 然 后 学 习 速 度 可 以 随 着 训练 的 进程 而 逐步 减少 ， 以 达到 稳定 的 原型 问 
量 。 令 人 遗憾 的 是 如 果 网 络 需 不 断 的 对 输入 向 量 的 新 排列 作出 调整 的 话 ， 这 种 技术 就 不 起 作 
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用 了 。 

当 秘 彼此 很 菲 近 的 时 候 ， 一 种 更 为 严重 的 稳定 性 问题 产生 了 。 在 特定 的 ' 靖 况 下 ， 一 个 形 
成 茶 簇 原型 的 权 值 问 量 会 ”侵入 另 一 个 权 值 癌 量 的 领地 ， 从 而 破坏 目前 的 分 类 状况 。 

图 14-11 中 的 4 个 图 说 明了 这 个 问题 。 两 个 输入 回 量 (图 (a) 中 用 空心 圆圈 表示 ) 被 提交 
了 几 次 。 结 有 果 是 代表 中 间 和 右边 秘 的 权 值 向 量 移 同 了 右边 。 最 后 右边 族 的 一 个 向 量 被 中 心 权 
全 向 量 重新 分 类 。 进 一 步 的 提交 向 量 使 中 间 向 量 移 向 右边 ， 直 到 它 “ 丢 失 ” 了 一 些 它 的 向 量 才 
停止 ,这些 丢失 的 问 量 成 为 左边 权 值 向 量 所 代表 的 类 的 一 部 分 。 


图 14-11 不 稳定 学 习 的 例子 


第 三 个 问题 是 有 时 一 个 神经 元 的 初始 权 但 回 量 离 输入 回 量 太 远 以 至 
于 它 从 未 在 竞争 中 获胜 ， 因 此 从 来 也 得 不 到 学 习 。 这 将 产生 一 个 守 无 用 
处 的 “死神 经 元 。 例 如 图 14-12， 无 论 以 什么 次 序 把 向 量 提交 给 网 络 ， 
向 下 指 的 那个 权 值 向 量 永远 都 得 不 到 学 习 。 这 个 问题 的 一 个 解决 办 法 是 
给 每 个 神经 元 的 净 输 入 加 入 一 个 负 的 偏 置 值 。 每 次 那个 神经 元 苋 争 获胜 
则 将 偏 置 值 减少 。 这 将 使 一 个 经 常 欧 争 获胜 的 神经 元 获胜 的 机 会 减少 。 
这 种 机 制 有 时 叫做 “民心 《见习 是 E14.4)。 

最 终 ， 一 个 竞争 层 有 和 多少 个 神经 元 ， 就 能 够 有 多 少 个 类 。 这 对 于 某 些 应 用 将 无 法 运用 ， 
尤其 在 事先 并 不 知道 禾 的 个 数 的 时 候 。 此 外 ， 对 于 竞争 层 ， 每 个 类 在 输入 空间 之 中 都 含有 一 
个 凸 区 域 。 当 在 非 凸 区 域 或 类 是 由 不 连接 的 区 域 所 组 成 的 时 候 ， 竞争 层 不 能 形成 类 。 

本 小 节 讨 论 的 一 些 问题 将 由 特征 图 及 LVQ 网 络 解 决 ， 这 些 将 在 本 章 的 后 一 部 分 讨论 ， 
而 自 适应 网 络 将 在 第 16 章 中 介绍 。 





图 14-12 


14.2.3 生物 学 意义 上 的 竞争 层 OOOOO 
(OOOOO 

在 前 面 几 章 我 们 未 曾 提 及 神经 元 在 一 层 之 内 是 如 何 组 织 的 (网 络 的 拓 OOOOOO 

扑 结构 )。 在 生物 的 神经 网 络 中 ， 神 经 元 的 典型 情况 是 排列 成 二 维 层 次 ， OO OOoO 
它们 通过 横向 反馈 密集 地 联结 在 一 起 。 图 14-13 展示 了 以 二 维 网 格 形式 ”OOCOO 


组 织 的 25 个 神经 元 。 inis 
通常 权 值 是 联结 的 神经 元 之 间 的 距离 的 函数 。 例 如 ，Hamming 
网 络 第 二 层 的 权 值 定 义 如 下 : 


w; = [t Sg (14.19) 
| -EL ÉJ 
等 式 (14.20) 与 等 式 (14.9) 定 义 了 同样 的 值 ， 只 是 基于 神经 元 之 间 的 距离 d;。 
w.. = | po" (14,20) 
7 — €, di; > 0 


图 14-14 展示 了 等 式 (14.20) 或 式 (14.19) 所 定义 的 权 值 。 每 个 神经 元 i 都 标 以 权 值 w,， 
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即 从 它 到 神经 元 j 的 权 值 。 神经 元 J 
加 强 中 心 /抑制 周围 ”加 强 中 心 /抑制 周围 常 被 用 来 描述 如 下 神经 © 
元 之 间 的 一 种 联结 方式 ， 每 个 神经 元 加 强 自身 (中 心 )， 并 且 同 时 抑制 E 
周围 的 神经 元 。 
8 TETEE ee maa _. CS 
这 是 生物 学 竞争 层 中 的 一 种 天 然 的 近似 。 在 生物 学 中 ， 大 神经 元 
| g E 
不 仪 加 强 自 己 ， 同 时 也 加 强 接近 它 的 那些 神经 元 。 一 般 情 况 下 ， 随 者 
图 14-14 


神经 元 之 间 的 距离 增加 ， 从 加 强 到 换 制 的 转变 是 平 光 地 出 现 的 。 

墨西哥 草帽 函数 ”这 种 转变 见 图 14-15 中 的 左 图 。 这 是 一 种 将 神 
经 元 之 间 的 距离 与 过 接 他 们 的 权 值 相 联 系 起 来 的 函数 。 那 些 相 近 的 神经 元 提供 互相 加 强 的 连 
接 ， 并 且 激 励 的 幅度 随 着 距离 的 增加 而 降低 。 超 过 一 定 距离 ， 神 经 元 将 星 现 一 种 抑制 性 联 
结 ， 并 且 抑 制 随 着 距离 的 增加 而 增加 。 因 为 这 个 函数 的 形状 ， 它 被 称 为 墨西哥 草帽 函数 。 图 
14-15 中 的 右 图 是 墨西哥 草帽 (加 强 中 心 /抑制 周围 ) 阻 数 的 一 个 二 维 图 示 ， 每 个 神经 元 i 部 
被 标 以 符号 及 表示 它 到 神经 元 j 的 权 值 的 相对 强度 w; o 


图 14-15 生物 学 上 的 加 强 中心 / 抑 制 局 围 技 


生物 竞争 系统 ， 除 了 在 加 强 中 心 / 抑 制 周围 的 联结 模式 下 ， 从 激励 区 域 到 抑制 区 域 的 转 
变 是 渐变 以 外 ， 还 是 一 种 相对 于 Hamming 网 络 的 “ 胜 者 全 得 "竞争 较为 弱 的 竞争 形式 。 生 物 
网 络 通常 不 是 单个 神经 元 (竞争 获胜 者 ) 活 跃 ， 而 是 在 最 为 活 牙 的 神经 元 的 周围 有 活 牙 区 。 这 
部 分 是 由 于 加 强 中 心 /抑制 周围 的 联结 方式 以 及 非 线性 的 反馈 联结 引起 的 (参见 第 15 HET FE 
廓 线 增强 的 讨论 )。 


14.24 自 组 织 特 征 图 


SOFM AA MA 为 了 模仿 生物 学 系统 的 活 贱 区 ， 并 且 不 必 实 现 非 线 性 的 加 强 中 心 / 
抑制 周围 的 反馈 联结 ，Kohonen 作 了 如 下 的 简化 设计 。 他 的 自 组 织 特 征 图 (SOFM ) 网 络 首 元 
使 用 竞争 层 所 用 的 同一 过 程 来 决 出 获胜 的 神经 元 i* ; 然后 ， 在 获胜 神经 元 周围 一 定 范围 内 
的 所 有 神经 元 的 权 值 向 量 用 Kohohen 规则 更 新 ， 

wlg) = iwla -1)+ a(p( gq) = iw g¢ - 1)) 
= (1—a) ;wlg-1) +aplg), ¿iE N*(d) 
其 中 邻 域 N,… (d) 包 含 所 有 落 在 以 获胜 神经 元 i* 为 中 心 、 半 径 为 d 的 所 有 神经 元 的 下 标 : 
N.«(d) = \j,4; s di : (14.22) 

当 向 量 p 被 提交 ， 获 胜 神经 元 的 权 值 和 其 邻 域内 的 神经 元 的 将 向 p 移动 。 结 果 是 多 次 提 
交 结 束 之 后 ， 邻 域内 的 神经 元 将 通过 学 习 而 拥有 彼此 相像 的 学 习 问 量 。 


(14.21) 
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为 了 展示 邻 域 的 概念 ， 请 考虑 图 14-16 中 的 两 幅 图 。 左 边 的 图 说 明 围绕 神经 元 13、 半 径 
为 1 的 二 维 邻 域 ; 右边 的 图 表示 半径 为 2 的 邻 域 。 
Ni3(1) = 18,12,13,14,18! (14.23) 
N13(2) = {3,7,8,9,11, 12, 13,14, 15,17,18,19,23} (14.24) 
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图 14-16 pix 


我 们 必须 提 及 的 是 SOFM 中 的 神经 元 不 必 排 列 成 二 维 的 形式 ， 一 维 或 者 三 维 甚至 多 维 
的 排列 都 是 可 能 的 。 对 于 一 维 的 SOFM， 神 经 元 在 半径 为 1 时 只 有 2 个 邻 域 ( 当 该 神经 元 位 于 
线 之 新 点 时 只 有 一 个 邻 域 )。 妆 然 也 可 以 用 不 同 的 方法 来 定义 距离 ， 例 如 ，Kohonen 为 了 更 有 
效 地 实现 曾 建 议 使 用 矩形 或 六 边 形 的 邻 域 。 神 经 网 络 的 性 能 对 邻 域 的 确切 形状 并 不 敏感 。 

现在 我 们 演示 SOFM 神经 网 络 是 如 何 工作 的 。 图 14-17 表示 一 个 特征 图 以 及 其 神经 元 的 
二 维 拓扑 结构 。 
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a = compet (Wp) 


图 14-17 ERRER 


图 14-18 展示 了 特征 图 的 初始 权 值 同 量 ， 每 个 三 元 素 权 全 
向 量 都 用 球体 上 的 一 个 点 表示 ( 权 值 已 经 规格 化 ， 都 能 够 沙 在 
球面 之 上 )。 邻 域内 的 神经 元 都 用 线 连接 起 来 ， 因 而 可 以 看 到 
网 络 拓 扑 结构 在 输入 空间 中 是 如 何 安 排 的 。 

图 14-19 展示 了 一 个 球面 上 的 方形 区 域 。 我 们 将 从 这 个 区 
域 中 随机 抽取 向 量 ， 以 提交 给 特征 图 。 

每 当 一 个 向 量 被 提交 ,具有 最 近 权 值 向量 的 那个 神经 元 ~- 一 
将 竞争 获胜 。 获 胜 神 经 元 及 其 邻 域 内 的 神经 元 将 移动 它们 的 Æ 14-18 
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权 值 向 量 从 而 离 输 入 回 量 更 近 一 些 ( 并 且 互 相 靠近 )。 本 例 中 我 们 
使 用 的 邻 域 半径 为 1。 

权 值 器 量 有 两 个 趋势 ， 首先 ， a a 
交 而 分 布 到 整个 输入 空间 。 其 次 ， 它 们 移 向 邻 域内 的 神经 
两 个 趋势 共同 作用 使 神经 元 在 那 一 层 重 新 排列 ， pc 
间 得 到 分 类 。 

图 14-20 所 示 的 一 系列 图 展示 了 25 个 的 神经 元 如 何在 活动 
的 输入 空间 内 展开 ， 并 自 组 织 以 匹配 其 拓扑 结构 。 

在 这 个 例 于 中 ,输入 同 量 以 等 概率 产生 于 输入 空间 的 任何 


fn 
DOE 


图 14-20 KHE, FIERDEN 250 次 


位 置 , 因 此， 神经 元 能 够 将 输入 空间 分 成 大 臻 相等 的 区 域 。 
[114-14| 图 14-21 提供 了 更 多 的 关于 输入 区 域 及 日 组 织 之 后 的 结果 特征 图 的 例子 。 


有 了 时 特征 图 不 能 够 与 他 们 输入 空间 的 拓扑 结构 相 匹配 。 这 种 情况 通常 发 生 在 网 络 的 两 部 
分 与 输入 空间 的 独立 部 分 的 拓扑 结构 相 匹 配 ， 但 网 络 在 这 两 部 分 之 间 却 发 生 了 招 曲 ， 见 图 
14-22 中 的 例子 。 这 种 扭曲 现象 不 大 可 能 消除 ， 因 为 网 络 的 两 端 都 已 经 形成 对 不 同 区 域 的 稳 
定 的 分 类 。 











图 14-21 特征 图 训练 的 其 他 例子 
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图 14-22 SHAR FPL A 


改进 特征 图 

到 目前 为 止 ， 我 们 仪 仅 讨论 训练 特征 图 的 最 基本 算法 。 现 在 考虑 几 种 能 够 加 速 自 组 织 过 
程 并 且 使 它 更 加 可 菲 的 技术 。 

一 个 改进 目 组 织 图 的 方法 是 在 训练 过 程 中 改变 邻 域 的 大 小 。 开 始 ， 邻 域 的 半径 a 设置 
得 较 大 。 随 着 训练 的 进行 ，d 逐渐 减少 ， 直 到 最 终 只 包含 苑 争 获胜 的 神经 元 。 这 种 方法 加 速 
目 组 织 并 且 极 不 可 能 在 网 络 中 造成 扭曲 。 

学 习 速 度 也 可 以 随时 间 而 改变 。 初 始 学 习 速 度 为 1 使 神经 元 能 够 很 快 址 学 习 提 供 的 向 
量 。 在 训练 过 程 中 ， 学 习 速 度 逐 渐 降 至 0， 于 是 学 习 变 得 稳定 了 。( 在 本 章 早 些 时 候 曾 讨论 
过 将 这 种 技术 用 于 竞争 层 。) 

万 外 一 种 加 速 目 组 织 的 改进 是 使 兖 争 获胜 的 神经 元 有 比 其 邻 域 内 的 神经 元 更 大 的 学 习 速 
度 。 

最 终 ， 苋 争 层 和 特征 图 通常 使 用 为 外 一 种 表达 式 作为 净 输 入 。 它 们 能 够 直接 计算 输入 问 
量 与 原型 向 量 之 间 的 距离 而 不 采用 计算 内 积 的 方法 。 这 种 利用 距离 的 方法 ， 优 点 在 于 输入 同 
量 不 必 规 格 化 。 这 种 改进 的 净 输 入 表达 式 将 在 下 一 节 的 LVQ 网 络 中 介绍 。 


试验 特征 图 请 使 用 Neural Network Design Demonstration 1-D Feature Maps 
(nndl4fm1) 和 2-D Feature Maps (nnd14fm2). | 





14.2.5 学 习 向 量 量化 


这 章 我 们 讨论 的 最 后 一 种 神经 网 络 是 学 习 向 量 量化 (LVQ) 网 络 ， 见 图 14-23 所 示 。 
LVO 神经 网 络 是 一 种 混合 网 络 。 通 过 有 监督 及 无 监督 的 学 习 来 形成 分 类 。 

E LVQ 网 络 中 ， 第 一 层 的 每 个 神经 元 都 指定 给 某 个 类 ， 和 常常 几 个 神经 元 被 指定 给 同一 
类 。 每 类 再 被 指定 给 第 二 层 的 一 个 神经 元 。 第 一 层 神经 元 的 个 数 $ ， 与 第 二 层 神 经 元 的 个 
数 S? 至 少 相同 ， 并 且 通 常 要 大 一 些 。 

和 竞争 网 络 一 样 ，LVQ 网 络 的 第 一 层 的 每 个 神经 元 学 习 原 型 向 量 ， 它 可 以 对 输入 空间 
的 区 域 分 类 。 然 而 ， 不 是 通过 计算 内 积 得 到 输入 和 权 值 向 量 中 最 接近 者 ， 我 们 通过 直接 计算 
距离 的 方法 来 模拟 LVQ 网 络 。 直 接 计算 距离 的 一 个 优点 是 向 量 不 必 先 规格 化 ， 当 癌 量规 格 
化 了 ， 无 论 是 采用 计算 内 积 的 方法 还 是 直接 计算 距离 ， 网 络 的 响应 将 是 相同 的 。 

LVO 网 络 的 第 一 层 的 净 输 入 是 
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n! =- |,w -pl (14.25) 
RE, Hilal BIB 
liw -pl 
K lw - pi (14.26) 
lsw -pl 





n! = -lw! - pll a? = W2a! 
a! = compet (n') 


图 14-23 LVQ 网 络 
LVO 网 络 第 一 层 的 得 出 是 
a = compet(n ) (14.27) 
因此 那 种 权 值 向 量 与 输入 疝 量 最 为 接近 的 神经 元 的 输出 将 为 1， 而 其 他 神经 元 的 输出 为 0。 
FE ZS, LVO 网 络 与 竞争 网 络 的 特性 几乎 相同 (至 少 对 规格 化 向 量 )。 然 而 ， 其 解 
释 方面 有 区 别 。 对 于 竞争 网 络 ， 有 和 非 零 输出 的 神经 元 表示 输入 向 量 属 于 那个 类 。 而 对 于 
LVQ 网 络 ， 竞 争 获胜 的 神经 元 表示 的 是 一 个 子 类 而 非 一 个 类 。 一 个 类 可 能 由 几 个 不 同 的 神 
经 元 ( 子 类 ) 组 成 。 
LVO 网 络 的 第 二 层 将 子 类 组 合成 一 个 类 。 这 是 通过 W 矩阵 来 实现 的 。W* 矩阵 的 列 代 
表 子 类 ， 而 行 则 代表 类 。W 的 每 列 仅 有 一 个 1， 其 他 元 素 都 设置 为 0。1 出 现 的 行 表明 这 个 
子 类 属于 那个 类 。 
(wii = 1) =» TÄ i EX k 的 一 部 分 (14.28) 
这 种 将 子 类 组 合成 为 类 的 过 程 使 得 LVQ 网 络 产 生 了 复杂 的 类 边界 . 一 个 标准 的 竞争 层 
14-7) 存在 局 限 ， 即 只 能 够 创造 凸 的 判定 区 域 。LVQ 网 络 克服 了 这 个 局 限 。 
1.LVOQ 学 习 
LVO 网 络 的 学 习 结 合 了 竞争 学 习 和 有 监督 的 学 习 。 正 如 所 有 有 监督 的 学 习 算 法 一 样 ， 
它 需 要 一 组 正确 网 络 行为 的 例 于 : 
Ipi tls (pt2) ipo rte! 
每 个 目标 向 量 除 了 一 个 是 1 以 外 必须 全 是 0。1 出 现 的 行 表 示 输 入 向 量 属于 那个 类 。 例 如 ， 
如 果 有 这 样 一 个 问题 ， 必 须 将 一 个 特别 的 三 元 素 向 量 归 类 人 四 个 类 中 的 第 二 类 ， 我 们 可 以 这 
样 表达 : | 
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Ji 0 
p = 0 ， t = ; (14.29) 
/ 1/2 0 


TESS EHTA, FERRY RSA ICHEA— TRIM AIC. AEN E TE 

阵 W:。 上 典型 情况 下 ， 相 同 数量 的 隐藏 神经 元 联结 到 每 个 输出 神经 元 ， 因 而 每 个 类 都 能 够 由 
相同 数量 的 凸 区 域 组 成 。W# 矩阵 的 所 有 元 素 都 设置 为 0， 除 了 如 下 情况 : 

如 果 隐 含 神 经 元 1 是 指定 给 类 大 ,那么 设 wi; = 1 (14.30) 


一 日 定义 了 W*:， 它 将 不 会 再 改变 了 。 隐 藏 权 值 W 将 用 Kohonen 规则 的 一 个 变化 形式 
训练 。 

LVQ 学 习 规 则 以 如 下 方式 进行 。 在 每 次 迭代 过 程 ， 一 个 输入 向 量 p 被 提供 给 网 络 ， 并 
是 计算 每 个 原型 向 量 与 p 的 距离 。 隐 含 的 神经 元 进行 竞争 ， 神 经 元 i 竞争 获胜 ，a 的 第 i 
个 元 素 被 设置 为 1。 接 着 al SW 相 乘 从 而 得 到 最 终 输出 2a， 也 是 只 有 一 个 非 零 元 素 k”, 
表明 p 是 指定 给 k* 类 的 ，。 | 

Kohonen 规则 被 用 在 两 个 方面 以 改进 LVQ 网 络 的 隐 舍 层 。 首 先 ， 如 果 pp 分 类 正确 的 话 ， 
那么 获胜 的 隐 含 神经 元 回 p 移动 . 

wg) = wg -1) +a(p(q) -iw Cq -1)), WÈ a?e = te =1 (14.31) 


其 次 ， 如 果 p 被 不 正确 归 类 ， 那 么 我 们 知道 错误 的 隐 含 层 神经 元 竞争 获胜 ， 因 此 ， 移 动 

它 的 权 值 ,+ w 远离 p: 
"WwW(g) = w(q - 1) - alplq) - +w(g—-1)), OR a‘: =1lzt- =0 (14.32) 
结果 是 每 个 隐 含 神经 元 移 向 那些 落 人 形成 子 类 的 类 中 的 向 量 ， 而 远离 那些 落 人 其 他 类 中 


Dipp e 
让 我 们 看 一 个 LVQ 训练 的 例子 。 我 们 训练 LVQ 网 络 来 求解 如 下 分 类 问题 : 


| ] l — ] 
A Lip - Ty p= i #2510, [|p| | ica 
正如 图 14-24 所 示 ， 开 始 为 每 个 输入 指定 目标 向 量 : 


a fal} ee 
a fd) e 


现在 必须 决定 选择 多 少子 类 来 组 成 这 两 个 类 中 的 每 一 类 。 如 果 让 每 个 类 是 两 个 子 类 的 联 

合 ， 那 么 隐 含 层 中 最 终 将 有 四 个 神经 元 。 输 出 层 的 权 值 矩阵 将 是 
1 1 0 P 
0 0 1 1 


Wi 将 隐 含 神经 元 1 和 2 与 输出 神经 元 1 连结 起 来 ， 将 隐 含 神经 元 3 和 4 与 输出 神经 元 2 


Ww = | (14.36) 
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相连 。 每 个 类 都 将 由 2 个 凸 区 域 组 成 。 
W 的 行 向 量 最 初 被 设置 为 随机 值 ， 见 图 14-25, EXX 1 的 两 个 隐 含 神经 元 的 权 值 用 
空心 圆 图 标记 ， 定 义 类 2 的 权 值 用 实心 圆 腹 标记。 这 些 权 值 是 
| | , |= | peed | [0:436 
] = > 2 = > 3 z > 4 = 


= | (14.37) 
0.840 — 0.249 0.094 0.954 


类 1 





图 14-25 
在 训练 过 程 中 的 每 次 选 代 ， 我 们 提供 一 个 输入 向 量 ， 找 出 其 响应 ， 然 后 调整 权 值 。 在 本 
1419, 例 中 我 们 将 从 提交 p, 开始 。 


图 14-24 


- iw! ~ p| 
| = compet(n’) = compet E |w -pl 
a= =- ] 
PI] -jaw ~ pal 
- haw" - p,| 
~ IC- 0.543 0.840]7 - [1 -1]7| TS r 
i A i[- 0.969 -0.249]7 - [1 -1 | o comet || ~ 2-11 | |. | 9 
a ~ |[- 0.997 0.0904]? -[1 -1]7] eee -1.09 || | 1 
_ ID- 0.456 0.954]7 - [1 -1]7| ee 3 
(14.38) 
第 三 个 隐 含 神经 元 的 权 值 向 量 与 p 最 近 。 为 了 确定 这 个 神经 元 属于 哪个 类 , $a 与 
wW HR: 
0 
a = Wa! ab | 4 : -| | (14.39) 


0 
这 个 输出 表明 p 属于 类 2。 这 是 正确 的 ， 于 是 3w RBA p, 而 更 新 。 
3w!(1) = 3w (0) + alp, -3w (0)) 
E bee +0.5|| ] | - [0:97 | - | 0.998 | (14.40) 
0.094 sl 0.094 ~ 0.453 
图 14-26 中 的 左 图 表示 3w 在 第 一 次 选 代 之 后 的 更 新 状况 ， 右 图 表示 算法 收敛 之 后 的 权 值 。 
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图 14-26 中 的 右 图 也 指明 了 输入 空间 如 何 被 分 类 。 那 些 归 入 类 1 的 区 域 用 浅 灰 色 表 示 ， 
归 入 类 2N KR ARKARA. 14-20 
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图 14-26 ”在 第 一 次 迭代 和 多 次 和 迭代 之 后 


2. 改进 的 LVO 网 络 (LV 0Q2) 

上 面 讨论 的 LVQ 网 络 对 许多 问题 都 解决 得 较 好 ， 但 却 存 在 两 种 局 限 。 首 先 ， 与 竞争 层 
的 情况 一 样 ， 有 时 一 个 LVQ 网 络 的 隐 售 神经 元 可 能 有 使 其 从 迈 争 获胜 停止 下 来 的 初始 权 
值 。 结 果 就 是 造成 了 一 个 无 用 的 死神 经 元 。 这 个 问题 用 “良心 "机制 解 决 ， 这 是 前 面 在 苋 争 层 
就 已 讨论 过 的 技术 ， 并 请 参见 习题 14.4。 

其 次 ， 由 于 有 时 初始 向 量 的 排列 ， 在 取 某 些 初 始 向 量 的 时 候 一 个 神经 元 的 权 值 呵 量 不 得 
不 经 过 一 个 它 不 代表 的 类 的 区 域 以 到 达 它 所 代表 的 区 域 。 由 于 这 样 的 神经 元 的 权 值 将 被 它 必 
须 经 过 的 区 域内 的 向 量 排斥 ， 它 可 能 无 法 通过 ， 以 至 可 能 对 吸引 它 的 区 域 不 能 进行 正确 分 
类 。 这 个 问题 通常 通过 如 下 改变 Kohonen 规则 来 解决 。 

如 果 隐 伟 层 中 的 获胜 神经 元 对 当前 的 输入 不 正确 地 归 类 ， 我 们 将 它 的 权 值 向 量 从 输入 问 
量 移 开 ， 正 如 以 前 所 做 的 那样 。 然 而 ， 我 们 也 调整 与 输入 向 量 最 接近 的 且 归 类 正确 神经 元 的 
权 值 。 这 种 第 二 个 神经 元 的 权 值 将 向 输入 问 量 移 近 。 

LVQ2 当 网 络 正 确 地 分 类 一 种 输入 向 量 时 ， 只 有 一 个 神经 元 的 权 值 被 移 向 输入 癌 量 。 
然而 如 果 输 入 向 量 被 错误 地 归 类 ， 两 个 神经 元 的 权 值 都 将 改变 ， 一 个 权 值 问 量 被 移 开 输入 加 
量 ， 男 一 个 被 移 向 输入 向 量 。 这 种 算法 束 是 LVQ2。 
试验 LVQ2 网 络 请 用 Neural Network Design Demonstration LVQ1 Networks 
(nnd14lv1) 和 LVQ2 Networks (nndl4lv2) 。 





14.3 We 


竞争 层 
用 Kohonen 规则 进行 竞争 学 习 
wg) = wg-1)+a(plg) -wg -1)) = (1-a);wg - 1) + aplq) 
Wg) = wg -l), igi’ 
其 中 i * 是 获胜 的 神经 元 。 
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输入 竞争 层 
/rr \r TN 





KF 1E Pd 


00000 
OOOO 
DOOYOY 
0 O G O W 
OOOOOO 


a= compet (Wp) Ne 





用 Kohonen 规则 进行 自 组 织 
iwlg) = ;wog - 1) + a(plg¢) - :wlq - 1) 
= (1-a) iw(g - 1) + ap(q) 
Ni(d) = {j,d; < di 


(i E N; (d)) 


LVQ 网 络 





n! = -liw - pli a? = W2a! 
a! = compet (n') 


(wi, = Ia 子 类 i 是 类 上 的 一 部 分 
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FA Kohonen 规则 进行 LVQ 网 络 学 习 
iiw (g) = ow Cg 一 1) + a(p(q) 一 "Wi(g 一 1)), 知 ai" = hi = ] 
sw (g) = “wg -1) 4+ a(plg) - wg -1)), ti ai’ = 1+ t“ - 0 . 14-23 


14.4 例题 


P14.1 图 14-27 RAIL LTR. WIT 14-28 PRAM KIE, 使 得 它 
能 够 如 图 所 示 以 最 少 的 神经 元 数 分 类 问 量 。 


类 1 








a = compet(Wp) 


图 14-28 例题 P14.1 的 竞争 网 络 


重 画 图 ， 使 之 表现 出 你 所 选择 的 权 值 和 隔离 每 个 类 区 域 的 判定 边界 。 
解 
因为 有 4 个 类 需要 定义 ， 因 而 竞争 层 需要 4 个 神经 元 。 每 个 神经 元 的 权利 作为 这 个 神经 
元 所 代表 的 类 的 原型 。 因 此 ， 对 每 个 神经 元 我 们 将 选择 大 致 位 于 一 个 类 中 心 的 原型 向 量 。 
类 1 2, 3 近似 集中 在 以 4$ 角 为 倍数 的 位 置 。 假 定 以 下 三 个 向 量 已 经 规格 化 (正如 竞争 
网 络 所 需要 的 那样 ) 并 且 指 向 正确 的 方向 。 


my | | 1/42 | 
IW = à aW = i 3W = 
1/42 AD sw | 


第 4 得 的 中 心 敲 纵 轴 的 距离 大 致 是 离 横 轴 距离 的 2 倍 。 结 果 规 格 化 的 权 全 和 癌 量 是 


| 2/15 | 
4w = 
= 1742 


BF E AE E RERI AT Be e E SAE E : 
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iw! -1/42 1742 

oe 2W | LV2 LV2 
daw’ | | 1/Y2 -1V2 
w 32/15 l/s 


我 们 用 箭头 画 出 这 些 权 值 回 量 ， 并 且 等 分 相 邻 的 权 值 向 量 之 间 的 弧 以 得 到 各 个 类 的 区 
域 ， 这 就 是 图 14-29。 





图 14-29 ”例题 P14.1 的 最 终 分 类 结果 


P14.2 图 14-30 表示 一 个 由 3 个 神经 元 组 成 的 竞争 网 络 层 的 三 个 输 八 向 量 及 三 个 初始 权 
(ila, A FENE A HE : 


=] 0 1/42 
melo | p= |°]. n= | 2 
三 个 权 值 向 量 的 初始 值 是 


0 -2/45 sS. 
-| "| | "| 





图 14-30 ”例题 P14.2 的 输入 向 量 及 初始 权 值 向 量 
计算 用 Kohonen 规则 训练 竞争 网 络 的 结果 权 值 ， 其 中 学 习 速 度 a=0.5， 以 下 述 序列 作 


为 输入 : 
pi > P,P; ,pi PP; 
解 
首先 我 们 用 权 值 问 量 组 成 权 值 矩 阵 
0 ai 
W=] -2/45 1/75 
~1/¥5 2/45 


然后 ， 提 交 第 一 个 向 量 p: 
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0 - | 0 0 
— 1 
a = compet(Wp,) = compet|| - 2/45 1/05 | z | = compet sau ||- H 
- 1/45 2/45 0.447 0 


第 二 个 神经 元 啊 应 ， 因 为 ,w 离 p>» 最 近 ， 因 此 ， 我 们 用 Kohonen 规则 更 新 ?w: 
Pet _ old _ old\ _ 7 2/45 | = | - 2/45 D — 0.947 
yw" = aW? + alp -2W°) = | uii | + | -| me wer 


图 14-31 显示 新 的 ?w E p 移 近 了 。 





现在 对 p, 重复 上 述 过 程 。 14-26 


0 ] = 4 
0 
a = compet(Wp,) = compet|| ~ 0.947 0.224 |‘ | = compet A = | 
- 1/45 2/45 0.894 | 


第 三 个 神经 元 获胜 ， 因 而 其 权 值 移 近 p,: 


WY = 3W + alp - 3w’) = be = JE zik |- | wen |} beg 


现在 提交 p: 
0 -1 ri _ 0.707 0 
-0.947 0.224 -0.512 | |=] 0 
-0.224 0.947 L 1/92 0.512 | 
第 三 个 神经 元 再 次 获胜 : 
Woe pli 4 afm. — weld) [70:2] as 1/42 | E [0:2417 
WwW BW Po = 37 = 1 9.047 | Iaa] 0.947 J J Lo.8272 


再 将 p 至 p 提交 后 ， 神 经 元 2 将 会 再 获胜 一 次 ， 而 神经 元 3 会 P w 
获胜 三 次 。 最 终 的 权 值 是 





= compet | 








a = compet(Wp,) = ame 








0 | 
wW 
W =| -0.947 0.118 A a GE 
0.414 0.8103 


最 终 的 权 值 见 图 14-32. 
注意 ;w 几乎 学 会 了 p,， 而 3Ww 指 癌 P 与 p, 之 间 。 另 一 个 权 什 向 W 
Ew 从 来 没有 被 更 新 。 第 一 个 神经 元 ， 因 从 未 在 竞争 中 获胜 而 成 为 
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一 个 死神 经 元 。 
P14.3 考虑 图 14-33 Pare A We Ree. H Kohonen 规则 训练 竞争 网 络 ， 使 
14.27, 这 些 向 量 分 类 成 艇 ， 其 中 学 习 速 度 a=0.5。 当 每 个 输入 向 量 都 提交 一 次 之 后 ( 按 所 示 顺 序 进 
行 )， 在 图 上 找 出 权 值 的 位 置 。 





p2 


图 14-33 ”例题 P14.3 的 输入 向 量 和 初始 权 值 


解 
这 个 问题 可 以 不 用 计算 而 通过 作 图 的 方法 解决 ， 结 果 见 图 14-34。 





图 14-34 ”例题 P14.3 的 解 管 


输入 向 量 p 首先 被 提交 ， 权 值 向 量 ,w 离 p, 最 近 ， 因 而 神经 元 1 APRENE wi p 移 近 

714.28) 一 半 距 离 ( 因 为 a=0.5)。 然 后 ，p, 被 提交 ， 神 经 元 1 再 次 获胜 ，1w 再 向 p 移 近 一 半 距 离 。 
在 前 两 次 迭代 中 ，?w 没有 改变 。 

ETRE p 被 提交 。 这 次 zw 竞争 获胜 并 向 p; HUFEN, BIURKA p 被 提交 ， 
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神经 元 2 再 次 获胜 ， 权 值 问 量 ;w le] p, 移 近 一 半 距 离 。 
如 果 我 们 继续 训练 这 个 网 络 ， 神 经 元 1 将 会 归 类 输入 向 量 p, 及 p,， 神 经 元 2 归 类 输入 
向 量 p 及 p,。 如 果 提 交 输 入 向 量 的 顺序 不 同 ， 最 后 的 分 类 结果 是 否 也 会 不 同 ? 
P14.4 本 章 所 讨论 的 安排 神经 元 的 特征 图 都 仅 限于 二 维 。 图 14-35 所 示 的 特征 图 由 9 个 
排 成 一 维 的 神经 元 组 成 。 | 
输入 特征 图 





Vf \ 特征 图 
/ @ \ 

© 

© 
(4) . 

© 

© 

o 
a = compet (Wp) \ © J 


图 14-35 9 个 神经 元 的 特征 图 


根据 如 下 的 初始 权 值 ， 画 一 权 值 向 量 图 ， 并 且 将 邻 域 神 经 元 的 权 值 用 线 连接 起 来 。 
0.41 0.45 0.41 0 0 0 -0.41 -0.45 -0.41 |’ 

W=|10.41 0 -0.41 0.45 0 -0.45 0.41 0 - 0.41 

0.82 0.89 0.82 0.89 1 0.89 0.82 0.89 0.82 
用 如 下 向 量 迭 代 一 次 来 训练 特征 图 ， 其 中 学 习 速 度 w=0.1， 邻 域 半 径 为 1。 重男 对 新 权 
值 矩阵 的 图 。 14-29 
0.67 
0.07 
0.74 


p = 








解 
原始 权 值 的 特征 图 见 图 14-36。 





图 14-36 原始 特征 图 
对 网 络 提交 p 而 开始 更 新 网 络 。 


a= compet( Wp) 
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0.41 045 041 0 0 0 -041 -0.45 -0.41 | ‘T 0.67 
= compet|} 0.41 0 -0.41 0.45 0 -0.45 0.41 0 -0.41 | | 0.07 
0.82 0.89 0.82 0.89 1 0.89 0.82 0.89 0.82 0.74 
= compet ([0.91 0.96 0.85 0.70 0.74 0.63 0.36 0.36 0.3]”) 
=-{[0 100000 0 0}? 
Toe FIRE. MAMA Pay, BO ATCA RA 1) 包 括 神经 
元 1 和 3 。 我 们 必须 用 Kohonen 规则 来 更 新 这 些 权 值 。 


0.41 0.67 0.41 | 0.43 
iw(1) = jw(0) + a(p — 1w(0)) =| 0.41 | +0.110.07 | -| 0.41 | j=] 0.37 
0.82 0.74 0.82 0.81 
0.45 0.67 0.45 0.47 
2w(1) = ,w(0) +a(p-:W(0)) =| 0 | +0.1/] 0.07] -| 0 = | 0.01 
0.89 0.74 0.89 0.88 
0.41 0.67 0.41 0.43 
3w(l) = 3w(0) + a(p— 3w(0)) =| -0.41 | +0.1/} 0.07 | -| - 0.41 - 0.36 
0.82 0.74 0.62 


图 14-37 展示 了 权 值 更 新 之 后 的 特征 图 。 





ye 


图 14-37 更 新 后 的 特征 图 
P14.5 AEH 14-38 所 示 的 LVO 网 络 以 及 如 下 权 值 ， 画 出 构成 每 个 类 的 输入 空间 的 区 域 。 





= -||,w! - pil a2? = W2ą! 
i = compet (n!) 
图 14-38 ”例题 P14.5 的 LVOQ 网 络 
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0 0 
sl 10000 
W=] 1 1 |, W pio 
-1 1 00111 

al s] 14-31 


解 
我 们 根据 W 中 第 ; 列 的 相应 非 零 元 素 的 下 标 左 来 标记 W 中 的 每 个 向 量 ;:w， 由 此 作出 
图 14-39. 





图 14-39 用 类 标记 的 原型 问 量 
分 隔 每 个 类 的 判定 边界 ， 通 过 在 每 对 原型 向 量 之 间 画 连接 线 而 得 到 ， 这 些 连接 线 与 一 
条 假想 的 连接 原型 向 量 的 线 正 交 ， 并 且 与 每 个 向 量 的 距离 相等 。 
在 图 14-40 中 ， 每 个 西区 域 按 其 最 接近 的 权 值 癌 量 春色 。 





14-32 
图 14-40 类 区 域 以 及 判定 边 窜 


P14.6 设计 一 个 LVQ 网 络 求解 图 14-41 中 所 示 的 分 类 问题 。 图 中 的 向 量 将 根据 其 颜色 


i [ A 人 三 类 之 © 
gi 
ooo «Oe 
te 
ga i am 
-0 
o 
sh ® 
SE GE Fh O 90e 
ay $ 


图 14-41 分 类 问题 


当 设计 完成 时 ， 画 图 表示 每 个 类 的 区 域 。 

解 

首先 ， 我 们 注意 到 因为 LVQ MARES ARCA, MRERAAR, MAE 
能 够 区 分 未 经 规格 化 的 向 量 ， 如 上 所 示 。 

接 下 来 为 每 种 颜色 指定 一 个 类 : 

。 所 有 上 白色 点 属于 类 1 
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。 所 有 灰色 点 属于 类 2 

TARE RETR 3 

现在 选择 LVQ 网 络 的 维 数 。 因 为 有 3 个 类 ， 因 而 网 络 的 输入 层 必 有 3 个 神经 元 ; 有 9 
个 子 类 ( 即 得 )， 因 而 隐 含 层 将 为 9 个 神经 元 。 这 样 就 得 到 图 14-42 所 示 的 网 络 。 





ni = -||,w' - pll a? = W2q! 
a! = compet (n!) 


ae 
下 
(py 
head 


图 14-42 ”例题 P14.6 的 LVQ 网 络 


我 们 可 以 通过 使 每 行 等 于 一 个 簇 的 转 置 原型 向 量 来 设计 权 值 矩阵 W, ARANE E P 
央 的 原型 向 量 ， 得 到 如 下 结果 : 
wo 
1 11 0 00 -1 -1 -1 
现在 第 一 层 的 每 一 个 神经 元 将 对 不 同 的 簇 作出 响应 。 
接 下 来 选择 W:， 使 得 每 个 子 类 都 与 正确 的 类 相连 。 为 此 ， 使 用 如 下 规则 : 
如 果子 类 i 是 属于 类 kk， WS wi, = 1 
例如 ， 第 一 个 子 类 是 向 量 图 中 左上 方 的 那个 艇 。 这 个 簇 的 向 量 是 日 色 的 ， 因 而 它们 属于 
第 一 类 。 所 以 我 们 应 设置 wii lo 
一 旦 设置 好 所 有 的 OA, MBF RAR: 


T 








10000101 0 
W=/0 100101 0 0 
001100001 
可 以 通过 提交 向 量 来 测试 网 络 。 这 里 以 p= [1 0] 来 计算 第 一 层 的 输出 : 

_ 0 

-v42 0 

=i 0 

a) 0 

a' = compet(n') = compet|| -1 |1=| 0 

0 l 

z5 0 

_ /2 0 

0 
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结果 网 络 指出 我 们 所 提供 的 问 量 属 子 第 6 子 类 。 再 看 第 二 层 网 络 的 结果 : [14-34] 
0 
0 
0 
i 0000101 04, 0 ] 
TD 
00110000 14) 1 0 
0 
0 


0 
第 二 层 网 络 指出 向 量 属于 类 1， 与 事实 相符 。 类 区 域 和 判定 边界 如 图 14-43 Pra, 


图 14-43 ”类 区 域 和 判定 边界 


P14.7 竞争 层 和 特征 图 都 要 求 向 量 是 规格 化 的 。 如 果 所 用 数据 是 非 规格 化 的 ， 则 结果 
如 何 ? 

处 理 这 种 数据 的 一 种 方法 就 是 在 将 向 量 提交 给 网 络 之 前 先进 行规 格 化 。 侣 这 样 做 的 缺点 
是 向 量 大 小 的 信息 (有 时 是 很 重要 的 ) 丢 失 了 。 

男 外 一 种 解决 方法 是 把 通常 用 来 计算 净 输 入 的 内 积 表达 式 

a= compet ( Wp) 
改 为 直接 计算 距离 
= - | W- p 和 a = compet(n) 

正如 LVO 网 络 所 做 的 那样 。 这 种 方法 有 效 且 保留 了 向 量 大 小 的 信息 。 

然而 ， 还 有 第 三 种 解决 方法 ， 就 是 在 规格 化 之 前 给 每 个 输入 向 量 附 加 一 个 常量 1， 那 么 
在 附加 元 素 1 后 改变 向 量 将 保留 大 小 信息 。 

用 第 三 种 方法 规格 化 以 下 问 量 : 


解 
首先 我 们 给 每 个 向 量 增 加 一 个 元 素 1: 


| l 
P; =| | 
l 


然后 规格 化 每 个 问 量 : 
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11 If] 1/43 
[H 
IJ {ls 3 
Ane 
p=] 1 /1 ffs] i7v2 
bj (L1 1//2 
H o]! To 
p, =|0|/j|| 0 |f =| 0 
l i 1 


14.5 结束 语 


本 章 我 们 讲解 了 第 13 章 介 绍 的 联想 instar 学 习 规 则 如 何 与 竞争 网 络 相 结合 ， 与 第 3 章 
中 的 Hamming 网 络 相 同 ， 产 生 了 强 有 力 的 自 组 织 网 络 。 由 于 竞争 和 instar 规则 的 结合 ， 使 
得 任何 由 神经 网 络 学 习 的 原型 向 量 成 为 某 个 特定 输入 向 量 类 的 代表 。 这 样 苑 争 网 络 通 过 学 习 
将 输入 空间 分 成 不 同 的 类 。 每 个 类 都 由 一 个 原型 向 量 ( 权 值 矩阵 的 行 ) 所 代表 。 

本 章 讨论 了 三 种 由 Tuevo Kohonen 提出 的 神经 网 络 。 第 一 种 是 标准 的 竞争 层 网 络 ， 它 简 
单 的 操作 使 得 它 成 为 解决 许多 问题 的 有 效 网 络 。 

自 组 织 特征 图 与 竞争 层 网 络 非常 相似 ,但 更 接近 于 生物 学 中 的 加 强 中 心 /抑制 周 围 的 网 
络 ， 结 果 使 得 网 络 不 仅 能 够 学 习 分 类 输 和 人 向量， 还 能 学 习 输 入 空间 的 据 扑 结构 。 

第 三 种 网 络 LVQ 网 络 ， 使 用 了 有 监督 及 无 监督 的 学 习 来 识别 艇 。 它 通过 第 二 层 将 多 个 
凸 区 域 组 合成 可 以 有 任何 形状 的 类 。LVQ 网 络 能 够 通过 训练 来 识别 由 多 个 不 联结 的 区 域 构 
成 的 类 。 

O B15 章 与 第 16 章 将 以 本 章 所 讲述 的 神经 网 络 为 基础 。 例 如 ， 第 15 章 将 更 为 详细 地 讨 
论 横向 抑制 、 加 强 中 心 /抑制 周转 网络 以 及 这 些 网 络 的 生物 学 基础 。 第 16 章 将 讨论 标准 竞争 
网 络 的 一 种 改进 ( 称 为 自 适应 谐振 理论 )， 这 个 理论 解决 了 本 章 所 讨论 的 权 值 稳定 性 问题 。 
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习题 
E14.1 {Riz Hamming 网 络 第 二 层 的 权 便 矩阵 如 下 : 


过 3 

l -7 7% 

2 _ 2. mo) 

Wej-F 1-4 
3 3 

=4 “g |! 


这 个 矩阵 不 符合 式 (14.6) 的 条 件 ， 因 为 


a 1 1 
= A a OD 


请 给 出 第 一 层 的 一 个 输出 ， 使 得 第 二 层 不 能 够 正常 操作 。 
E14.2 考虑 图 14-44 中 所 示 的 输入 向 量 及 初始 权 值 


pa P: 








图 14-44 eRe 


(i) 画 出 一 个 竞争 网 络 图 ， 该 网 络 能 够 将 上 图 所 示 数 据 分 类 ， 从 而 使 三 秘 同 量 
都 有 自己 的 类 。 

(ii) 使 用 所 提供 的 初始 权 值 以 图 形 方法 训练 网 络 ， 带 标号 的 向 量 以 p po p> 
p 的 顺序 提交 。 回 想 如 果 多 个 神经 元 有 相同 的 输出 ， 则 竞争 传输 蚂 数 选择 
有 最 小 下 标的 那个 神经 元 。 图 14-3 以 图 形 方法 介绍 了 Kohonen 规则 。 

(iii) 重 画 图 14-1 中 的 图 形 ， 在 其 中 显示 你 得 到 的 最 后 权 值 向 量 ， 以 及 代表 一 个 
类 的 每 一 区 域 之 间 的 判定 边界。 

E14.3 利用 下 述 输入 模式 训练 竞争 网 络 : 


nm 


(i) 使 用 Kohonen 学 习 规 则 ， 其 中 waw= 0.$， 将 输入 模式 训练 一 遍 ( 即 每 个 输入 
按 给 定 顺序 提交 一 次 )， 图 示 结 果 。 假 设 初 使 权 值 矩 阵 为 
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_ 
W = 
0 2 
(ii) 训练 一 遍 输 入 模式 之 后 ， 模 式 如 何 聚 集 ?” ( 即 哪些 输入 模式 被 归 人 同一 类 
中 ? ) 如 有 果 输 入 模式 以 不 同 顺 序 提 交 ， 结 果 会 改变 吗 ” 和 解释 其 原因 。 
(iii) 用 a=0.25 重复 (i)。 这 种 改变 对 训练 有 何 有 影响 ? 
E14.4 在 本 章 前 面 我 们 曾 用 “良心 ”来 指 一 种 技术 ， 用 以 避免 困 扰 疯 争 层 网 络 和 LVQ 网 
络 的 死神 经 元 问题 。 
离 输 入 向 量 太 远 以 致 无 法 竞争 获胜 的 神经 元 ， 能 够 通过 调整 偏 置 值 使 神经 元 每 
竞争 获胜 一 次 就 增加 负 偏 置 值 ， 从 而 得 到 获胜 的 机 会 。 其 结果 是 第 获胜 的 神经 
元 开始 出 现 “ 负 类" 感 ， 耻 到 其 他 神经 元 得 到 获胜 的 机 会 。 
图 14-45 展示 了 一 个 具有 偏 置 值 的 竞争 网 络 。 一 个 典型 的 对 神经 元 守 的 俩 置信 
的 学 习 规 则 是 


0.982, ixi” 
ye -| 


bt 0.2, i= i 





a = compet (Wp +b) 


图 14-45 AMBER ERS 


Ci) 检验 图 14.46 中 的 向 量 ， 是 否 存在 一 种 提交 向 量 的 次 序 使 得 ,mw 能够 竞争 获 
胜 并 且 向 其 中 一 个 向 量 移 近 ? (注意 ; 假设 不 使 用 自 适应 偏 置 值 。) 





(W 


图 14-46 输入 向 量 和 死神 经 元 


Cai) 给 出 如 下 的 输入 向 量 、 初 始 权 值 以 及 偏 置 值 ， 计 算 权 值 (用 Kohonen 规则 ) 及 
偏 置 值 (用 上 述 偏 置 值 规则)。 重 复 如 下 所 示 序列 ， 直 至 神经 元 1 竞争 获胜 ; 
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ba | B 
W= n we > 3W = 
学 | 5 -2/45 
WAJE: Po Po Po Pe Po Pe * [i441 

(iii) 在 jw 竞争 获胜 之 前 共 提交 多 少 次 ? 
E14.5 LVQ 网 络 的 净 输 入 表达 式 是 直接 计算 输入 向 量 与 每 个 权 值 同 量 之 则 的 距离 ， 而 

不 是 使 用 内 积 。 因 而 LVQ 网 络 不 需要 规格 化 的 输入 向 量 。 这 种 技术 也 可 以 用 于 

使 竞争 层 网 络 分 类 非 规格 化 的 向 量 。 这 样 的 网 络 请 见 图 14-47。 

输入 竞争 层 
/N\A ™ 





n! = -lliwi-pll 
a! = compet (n!) 


图 14-47 ”替换 为 净 输 入 表达 式 的 竞争 层 网 络 
使 用 这 种 技术 对 如 下 非 规格 化 的 向 量 训练 一 个 2 神经 元 竞争 层 网 络 ， 其 中 学 习 速 


E a=0.5. 
pm 


以 如 下 顺序 提交 问 量 ， 
pi Po» B> P> P> P 
网 络 的 初始 权 值 为 


molt, aol 


E14.6 证 明 图 14-47 所 示 改 进 的 竞争 网 络 (直接 计算 距离 ) 与 标准 的 竞争 网 络 (使 用 内 积 


上 且 输 入 向 量 是 规格 化 的 ) 产 生 同 样 的 结果 。 14-42 
E14.7 我 们 希望 得 到 一 个 分 类 器 ， 能 够 将 如 下 定义 的 方形 区 域 分 成 16 个 面积 大 致 相等 
WA: 


Osp sl, 2ep, <3 
(i) 使 用 MATLAB 在 上 述 区 域内 随机 产生 200 SE. 
(ii) 写 一 个 MATLAB 的 M- 文 件 ， 用 Kohonen 学 习 来 实现 一 个 竞争 层 网 络 。 用 
直接 计算 输入 向 量 与 权 值 向 量 之 间 的 距离 来 计算 净 输 入 ， 正如 LVQ 网 络 
所 做 的 那样 ， 因 此 向 量 不 必 规 格 化 。 用 M- 文 件 训练 竞争 层 网 络 以 分 类 200 
个 向 量 。 试 用 不 同 的 学 习 速度 并 比较 性 能 。 : 
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(iii) B— MATLAB 的 M- 文 件 以 实现 4 神经 元 x 4 神经 元 (二 维 ) 的 特征 图 。 使 用 
特征 图 来 分 类 相同 的 向 量 。 使 用 不 同 的 学 习 速 度 和 邻 域 大 小 ， 并 比较 性 能 。 
E14.8 我 们 想 要 一 个 可 以 将 下 述 定义 的 输入 空间 的 区 间 分 成 $ 个 类 的 分 类 器 : 
Osp s! 
(i) Ħ MATLAB 随机 产生 在 上 述 区 间 均 勾 分 布 的 100 个 随机 值 。 
(ii) 平方 每 个 值 使 分 布 变 成 不 均匀 的 。 
(iii) 写 一 个 MATLAB 的 M- 文 件 实现 一 个 竞争 层 网 络 ， 对 于 平方 后 的 值 ， 用 M 
-文件 训练 一 个 5 个 神经 元 的 竞争 层 网 络 ， 直 到 权 值 完全 稳定 。 
(iv) 竞争 层 的 权 值 是 如 何 分 布 的 ?是否 与 权 值 如 何 分 布 和 输入 值 的 平方 如 何 分 
MAR? 
E14.9 LVQ 网 络 有 如 下 权 值 : 


0 0 
1 0 10000 
We=/-1 0 wile EZ) 
0 1 00011 
0 -1 
14-43) (i) LVO 网 络 有 多 少 个 类 和 多少 个 于 类 ? 


(ii) 画图 展示 第 一 层 权 值 向 量 以 及 将 输入 空间 分 成 子 类 的 判定 边界 。 
(iii) 在 每 个 子 类 区 域 上 标明 它 所 属 的 类 。 
E14.10 我 们 希望 得 到 能 够 将 下 述 向 量 按 所 示 的 类 分 类 的 LVQ 网 络 : 
=i -1 
= 1 


~ ] l - 1 l l 
T | sa 


1 =] si pa] ] 
二 下 小 上 二 ] 1 si 
(i) LVO 网 络 的 每 一 层 各 需要 多 少 个 神经 元 ? 
(ii) 确定 第 一 层 的 权 值 。 
(iii) 确定 第 二 层 的 权 值 。 
(iv) 至 少 用 每 个 类 的 一 个 向 量 测 试 你 的 网 络 。 
E14.11 我 们 希望 得 到 能 够 将 下 述 向 量 按 所 示 的 类 分 类 的 LVQ 网 络 : 


sm] aef jw 


(i) 这 种 分 类 问题 是 否 能 够 通过 感知 机 解决 ? 解释 你 的 答案 。 

(ii) 在 这 种 能 够 分 类 上 述 数据 的 LVQ 网 络 之 中 ， 每 一 层 需要 有 多 少 神经 元 ? 
假设 每 个 类 都 由 2 SOPRA. 

(iii) 确定 这 个 网 络 的 第 二 层 的 权 值 。 

(iv) 将 网 络 第 一 层 的 权 值 全 部 初始 化 为 零 ， 并 对 下 列 问 量 计算 用 Kohonen 规 
则 学 习 ( 学 习 速 度 a=0.5) 时 权 值 的 变化 : 

Ppa’ pz， P> P: P 
14-44 (v) 画图 表示 输入 向 量 、 最 终 权 值 向 量 和 两 个 类 之 间 的 判定 边界 。 


类 2: 


3 
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15.1 目的 


本 章 我 们 将 继续 讨论 第 13 章 和 第 14 章 中 的 联想 学 习 算法 和 竞争 学 习 算 法 。 本 章 介 绍 的 
Grossberg 网 络 是 一 种 自 组 织 连 续 的 竞争 网 络 。 这 将 是 我 们 第 一 次 讨论 连续 递归 网 络 ， 并 且 
将 引入 一 些 概 念 ， 这 些 概 念 在 第 17 章 和 第 18 章 要 作 进 一 步 的 讨论 。 Grossberg 网 络 也 是 在 
第 16 章 将 要 讨论 的 自 适 应 谐振 理论 (ART) 网 络 的 基础 。 

我 们 将 从 讨论 Grossberg 网 络 的 生物 学 启发 ( 即 人 的 视觉 系统 ) 开 始 。 尽 管 我 们 不 能 全 面 
深 人 地 讨论 这 个 问题 ， 但 Grossberg 网 络 受 生物 学 影响 如 此 之 次 如 果 不 把 它 放 在 生物 学 的 
背景 下 将 很 难 进行 讨论 。 注 意 生物 学 为 人 工 神经 网 络 提供 了 最 初 的 局 示 是 很 重要 的 ， 并 且 应 
该 继续 从 中 寻求 局 示 ， 因 为 科学 家 对 脑 的 功能 不 断 有 新 的 发 现 。 


15.2 理论 和 实例 


在 20 世纪 60 年 代 晚 期 和 70 年代， 研究 神经 网 络 的 人 数 急剧 地 减少 。 但 是 仍 有 一 批 研 
究 人 员 继 续 在 这 个 领域 工作 ， 其 中 特别 包括 Tuevo Kohonen , James Anderson, Kunihiko 
Fukushima 和 Shun - ichi Amari。 最 宣 于 创造 性 的 一 人 就 是 Stephen Grossberg 

Grossberg 从 60 年 代 早 期 起 就 一 直 活 牙 在 神经 网 络 研 究 领 域 ， 并 取得 丰硕 成 果 。 他 的 工 
作 的 特点 是 使 用 非 线性 数学 来 模拟 思维 和 脑 的 特定 功能 ， 并 且 他 所 取得 的 大 量 成 果 与 对 脑 任 
务 的 了 解 程度 是 一 致 的 。 他 的 论文 题目 ， 涉 及 从 神经 网 络 如 何在 视 党 中 提供 对 比 增强 之 类 的 
特殊 领域 ， 到 人 类 记忆 的 普遍 理论 这 样 一 般 性 的 主题 。 

部 分 由 于 他 的 成 就 的 高 度 使 他 的 工作 享有 “ 难 ” 的 名 声 。 每 一 篇 新 的 论文 部 是 建立 在 过 去 
30 年 研究 的 基础 之 上 ， 因 而 很 难 去 衡量 其 价值 。 此 外 ， 他 用 的 术语 是 自 成 体系 的 ， 与 其 他 
研究 人 员 使 用 的 不 同 。 他 的 工作 也 以 高 难度 的 数学 以 及 神经 生理 学 的 复 末 性 为 特点 。 他 受 
Helmholtz, Maxwell 和 Mach 等 人 对 脑 的 机 能 的 交叉 学 科研 究 的 局 发 ， 并 将 他 们 的 观 操 引入 
到 自己 的 工作 中 。 他 的 研究 处 于 数学 、 生 理学 和 神经 生理 学 的 交汇 处 。 缺 乏 这 些 领 域 的 背景 
知识 对 初 读 其 作品 会 带 来 困难 。 

本 章 我 们 将 对 Grossberg 一 种 独创 性 的 网 络 作 初步 的 了 解 。 为 了 尽 可 能 地 理解 他 的 观点 ， 
将 首先 简要 介绍 他 的 网 络 的 生物 学 启发 : 视觉 系统 。 然 后 给 出 用 于 许多 Grossberg 网 络 的 数 
学 构造 模块 ， 并 联 模 型 。 在 对 这 个 简单 模型 的 功能 有 个 了 解 之 后 ， 我 们 将 演示 如 何 为 自 适 应 
模式 识别 建立 神经 网 络 。 这 个 网 络 将 是 第 16 章 讨论 的 自 适应 谐振 理论 网 络 的 基础 。 通 过 迁 
步 地 建立 越 来 越 复杂 的 网 络 ， 我 们 希望 能 够 使 它们 更 容易 被 理解 。 

“我 们 应 从 本 章 的 讨论 中 吸取 一 个 非常 重要 的 教训 。 尽 管 人 工 神 经 网 络 的 最 初 司 发 来 源 于 
生物 学 ， 但 时 常 我 们 忘记 回 到 生物 学 去 寻找 新 的 思想 。 将 会 出 现 生物 学 、 数 学 、 心 理学 和 其 
他 学 科 的 结合 ， 这 将 极 大 地 促进 我 们 对 神经 网 络 的 理解 。 
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15.2.1 生物 学 的 局 发 : 视 党 


本 章 所 描述 的 神经 网 络 受到 人 类 视觉 系统 的 生理 学 研究 的 启发 。 这 -一 小 节 我 们 要 对 视觉 
作 概 上 略 的 介绍 ， 从 而 使 网 络 的 功能 更 易于 理解 。 

图 15-1 是 馈 党 系统 的 第 一 阶段 的 一 个 示意 图 。 光 通过 角膜 (眼前 部 的 透明 体 ) 和 水 旧 体 ， 
水 晶体 使 光线 折射 从 而 将 物体 聚焦 在 视网膜 上 ( 眼 外 壁 的 内 层 )。 正 是 在 光线 落 到 视网膜 后 ， 
将 这 种 大 量 信息 翻译 为 可 理解 的 影像 的 过 程 才 开始 。 正 如 将 在 本 章 后 面 看 到 的 那样 ， 我 们 所 
“看 "到 的 许多 东西 并 不 是 实际 投射 在 视网膜 上 的 影像 。 
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图 15-1 眼球 和 视网膜 


视网膜 FRE HE 视网膜 实际 是 大 脑 的 一 部 分 ， 它 在 胎儿 发 育 过 程 中 与 脑 分 离 
但 保留 了 视神经 与 脑 的 相连 。 视 网 膜 有 三 层 神经 细胞 。 外 层 由 光 感受 器 ( 杆 状 体 和 锥 体 ) 组 
成 ， 用 来 将 光 转化 成 电信 号 。 杆 状 体 细胞 使 得 我 们 能 在 昏暗 的 情况 下 看 见 东西 ， 而 锥 体 使 我 
们 看 到 精细 的 细节 以 及 颜色 。 由 于 现在 还 不 知道 的 原因 ， 光 必须 通过 视网膜 的 另外 两 层 来 刺 
激 杆 状 体 与 锥 体 。 正 如 在 下 面 将 会 看 到 的 ， 这 种 障碍 必须 在 神经 的 处 理 过 程 中 得 到 补偿 ， 以 
便 重建 可 识别 的 图 像 。 

双 极 细胞 水 平 细胞 。 无 长 突 细胞 ”视网膜 的 中 间 层 由 三 种 细胞 组 成 ， 双 极 细胞 、 水 平 
细胞 和 无 长 突 细胞 。 双 极 细胞 从 接受 器 接受 输入 并 且 传 递 给 视网膜 的 第 三 层 。 水 平 细胞 联结 
接受 器 和 双 极 细胞 ， 而 无 长 突 细胞 联结 双 极 细胞 与 神经 节 细胞 。 

神经 节 细胞 “视网膜 的 最 后 一 层 由 神经 节 细胞 组 成 。 神 经 节 细胞 的 轴 突 通过 视网膜 的 表 
面 而 集成 一 束 形成 视觉 神经 。 很 有 趣 的 是 每 只 眼 都 有 大 约 1.25 亿 个 感受 器 , 但 只 有 100 万 
个 的 神经 节 细胞 。 显 然 在 视网膜 那里 做 了 大 量 的 处 理 以 减少 数据 。 

视觉 皮层 “神经 节 细 胞 的 轴 突 部 分 ， 成 为 一 束 视觉 神经， 与 大 脑 的 一 个 叫做 “ 模 向 膝 状 
核 "的 区 域 相连 ， 如 图 15-2 所 示 。 从 这 里 视 党 神经 纤维 肩 出 到 大 脑 后 部 的 主 视觉 皮层 。 神 经 
节 细 胞 的 轴 突 和 横向 膝 状 核 细胞 构成 突 触 ， 而 横向 膝 状 核 细胞 和 视觉 皮层 中 的 细胞 构成 突 
触 。 视 党 皮层 是 指 大 脑 的 一 个 实现 视觉 功能 并 且 由 许多 层 细胞 组 成 的 区 域 。 

沿 着 视觉 路 径 的 联结 绝 非 随意 的 。 每 一 层 到 下 一 层 的 映射 都 有 高 度 的 组 织 。 视 网 膜 特定 
部 分 的 神经 节 细胞 的 轴 突 伸 到 横向 膝 状 核 的 特定 部 分 ， 然 后 再 伸 到 视觉 皮层 的 特定 部 分 (这 
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图 15-2 ”视觉 路 径 


种 拓扑 映射 是 受 第 14 章 所 描述 的 自 组 织 特 征 图 的 启发 )。 此 外 ， 正 如 我 们 在 图 15-2 中 所 看 
到 的 那样 ， 脑 的 每 个 半球 都 接收 来 自 两 只 眼 的 输入 ， 因 为 视觉 神经 纤维 的 一 半 交 又 而 男 一 半 
保持 不 交叉 。 结 果 是 每 个 视觉 区 的 左 半 部 分 在 脑 的 左 半 部 分 结束 ， 而 每 个 视觉 区 的 右 半 部 分 
在 脑 的 左 半 部 分 结束 。 

1. 幻觉 

我 们 对 视觉 路 径 的 大 致 结构 有 了 某 些 了 解 ， 但 是 它 是 如 何 起 作用 的 呢 ? 视 网 膜 的 三 层 各 
有 什么 作用 ?横向 膝 状 核 神经 完成 什么 任务 ? 这些 问题 将 能 够 从 对 视觉 幻觉 的 研究 中 受到 一 
些 局 示 。 

为 什么 有 这 么 多 视觉 幻觉 ?克服 视网膜 的 不 完善 的 吸收 过 程 的 机 制 产生 了 幻觉 。Grossberg 
和 其 他 人 使 用 了 大 量 已 知 的 幻觉 来 探测 自 适 应 感知 机 制 [GrMi89]。 如 果 我 们 能 做 出 与 生物 学 系 
统 产生 同样 幻觉 的 数学 模型 ， 那 么 我 们 就 会 有 一 个 机 制 ， 可 以 描述 脑 的 这 一 部 分 是 如 何 工作 
的 。 为 了 帮助 理解 幻觉 存在 原因 ， 我 们 将 首先 考虑 一 下 视网膜 吸收 过 程 的 一 些 不 完善 的 地 方 。 

视神经 乳头 图 15-3 是 一 幅 眼 科 医 生 透 过 角膜 所 看 到 的 视网膜 的 图 像 。 图 中 大 的 浅 色 
圆圈 是 视神经 乳头 ， 那 里 视神经 离开 视网膜 而 进入 横向 膝 状 核 神经 。 这 里 也 是 动脉 进入 视 网 
蜡 以 及 静脉 移 开 的 地 方 。 这 个 视神经 乳头 导致 了 视觉 上 盲点 的 存在 。 稍 后 将 会 讨论 这 一 点 。 


SIL CAR) 





静脉 


图 15-3 ARIE 


视网膜 止 斑 ”视神经 乳头 右边 的 深 色 圆圈 是 视网膜 上 思 班 ， 这 是 我 们 视 场 的 中 心 。 这 是 饮 
网 膜 的 一 部 分 ， 直 径 大 约 有 半 毫 米 ， 其 中 只 有 锥 体 细胞 。 尽 管 锥 体 细胞 在 视网膜 的 各 处 都 有 
分 布 ， 但 它们 大 部 分 都 集中 于 视网膜 四 斑 处 。 此 外 ， 在 视网膜 的 这 个 区 域 ， 其 他 层 补 放置 边 
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从 图 15-3 能 够 看 到 在 视网膜 的 吸收 过 程 中 存在 着 一 些 不 完善 之 处 。 首 先 ， 在 视神经 和 乳 
头 处 既 无 杆 状 细胞 也 无 锥 体 细胞 ， 从 而 给 我 们 的 视 场 造成 了 一 个 盲点 。 因 为 视觉 路 径 所 做 的 
处 理 使 得 我 们 通常 不 能 觉察 到 盲点 的 存在 ,但 可 以 通过 一 个 简单 的 试验 来 验证 。 请 看 图 15- 
4 中 左边 的 黑色 圆圈 ， 并 且 遗 住 你 的 左 眼 。 你 将 头 向 纸 面 移 近 ， 然 后 再 远离 ， 那 么 你 将 注意 
到 一 个 点 (大 约 距 纸 面 9 英寸 远 )， 在 那里 右边 的 圆圈 将 从 你 的 视 场 中 消失 (你 仍然 注视 看 左 
边 的 圆圈 ) 。 如 果 以 前 你 没有 试 过 这 人 么 做 ， 那 么 可 能 有 点 难 做 。 有 趣 的 是 我 们 看 到 自己 的 育 
点 并 不 是 以 一 个 黑 润 出现。 有 时 我 们 的 大 脑 设 法 填补 了 那个 看 不 到 的 区 成 。 





图 15-4 BAWI 
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交叉 。 这 阻碍 了 杆 状 细胞 及 锥 体 细 胞 接收 视 场 中 所 有 的 光线 。 而 且 ， 因 为 光 感 受 天 在 视网膜 
的 后 部 ， 光 线 必 须 通过 其 他 两 层 才 能 到 达 那 里 。 

图 15-5 展示 了 这 种 不 完善 之 处 的 结果 。 从 图 中 我 们 看 展现 在 视网膜 上 的 一 条 边 。 石 边 
的 说 明 最 初 由 光 感 受 器 接收 到 的 图 像 。 被 育 点 和 静脉 覆盖 的 区 域 没 有 被 杆 状 细胞 及 锥 体 细胞 
观察 到 。( 我 们 看 不 到 动脉 和 静脉 等 的 原因 是 视觉 路 径 并 不 对 稳定 的 图 像 产生 啊 应 。 有 眼球 的 
不 断 的 震动 ， 也 称 作 跳 嫉 运动 ， 因 而 即使 是 视 场 中 固定 的 物体 也 在 相对 于 眼球 运动 。 静 脉 对 
于 眼球 是 静止 的 ， 因 而 在 视 场 中 是 暗淡 的 。) 


= 
Oy 


x 





图 15-5 ”视网膜 上 一 条 边 的 感知 ( 见 [Gros90]) 


应 急切 断 ”特征 填充 。 因 为 我 们 看 到 的 并 不 是 图 155 右边 所 示 的 边 ， 视 觉 路 径 上 的 神 
经 系统 一 定做 了 某 些 处 理 ， 从 而 弥补 了 那些 失真 ， 补 全 了 图 像 。Grossberg 提 到 两 种 主要 的 
补偿 处 理 。 第 一 种 ， 他 称 之 为 应 急切 断 (emergent segmentation) ， 补 偿 了 丢失 的 边界 。 第 二 
种 ， 他 叫做 特征 填充 (featural filling - in), 在 产生 的 边界 内 填充 颜色 和 亮度 。 这 两 种 过 程 在 
图 15-6 中 说 明 。 在 上 面 的 图 中 我 们 看 到 一 条 由 杆 状 核 细 胞 和 锥 体 细 胞 察觉 到 的 原始 边 ， 包 
含 丢 失 的 片段 。 在 下 面 的 图 中 看 到 在 应 急切 断 和 特征 填充 之 后 的 完整 边 。 

如 果 沿 着 视觉 路 径 的 处 理 重新 建立 了 我 们 所 看 到 图 像 的 丢失 部 分 ， 那 么 就 一 定 有 弄 锯 的 
时 候 ， 因 为 它 不 能 够 确切 地 知道 那些 它 没有 接受 到 光线 的 场景 部 分 。 这 种 错误 能 够 由 饮 觉 约 
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处 理 后 


应 急切 断 特征 填充 


图 15-6 补偿 处 理 ( 见 | Cros901) 
党 子 以 说 明 。 例 如 ， 在 图 15-7 的 左 图 中 你 能 够 看 到 一 个 亮 白 色 的 三 角形 置 于 几 个 其 他 黑色 
物体 的 上 面 。 事实 上 ， 图 中 并 不 存在 这 样 的 三 角 ， 这 纯粹 是 视觉 系统 的 应 急切 断 及 特征 填充 
处 理 过 程 的 一 种 创造 。 这 种 情况 同样 也 适用 于 右 图 中 那个 看 起 来 像 置 于 那些 线 上 的 亮 白 色 圆 
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图 15-7 


图 15-8 展示 了 特征 填充 的 过 程 。 这 种 幻 党 叫做 霓 虹 色 扩展 。 在 右边 的 图 中 你 也 许 能 够 
企图 中 看 到 淡 蓝 色 的 钻石 ， 其 至 宽 的 淡 蓝 色 十 字形 线条 。 在 左边 的 图 中 能 看 到 淡 蓝 色 的 环 。 
填充 在 第 石 中 的 蓝 色 及 环 并 不 是 在 印刷 过 程 中 涂抹 的 颜色 ， 也 不 是 由 于 光 的 散射 。 这 种 效果 
并 没有 在 视网膜 上 出 现 。 除 了 在 你 的 脑 中 它 根 本 就 不 存在 。( 需 虹 色 扩展 的 感知 现象 办 人 而 
开 ， 并 且 感 知 的 强度 取决 于 使 用 的 颜色 。 如 果 你 在 图 15-8 中 看 不 到 这 种 效果 ， 请 看 任何 一 
期 《神经 网 络 》( Neural Networks, Pergamon Press) 杂 志 的 封面 。) 











图 15-8 Feary Re (EAR) 


在 本 章 后 面 我 们 将 讨论 一 些 能 够 帮助 解释 应 急 AIBA Be SAORI A AR A SE BS 
络 模型 | 15-7 
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2. 视觉 规格 化 

亮度 一 致 BEM RIMES, 还 有 其 他 两 种 早期 的 视觉 系统 中 的 现 
象 ， 对 于 完成 什么 动作 给 予 我 们 一 种 提示 : 亮度 一 致 和 党 度 对 比 。 亮度 一 致 的 效果 能 够 通过 
图 1$-9 所 示 的 测试 证 实 。 在 这 个 测试 中 被 试 者 看 到 一 个 小 灰 圆 盘 在 一 个 大 暗 灰 的 圆 环 中 ， 
用 一 定 强度 的 白光 照射 。 要 求 被 测试 者 从 一 系列 分 别 照射 的 灰色 圆 盘 中 指出 中 间 圆 盘 的 腕 
度 ， 并 且 选 出 具有 相同 亮度 的 圆 盘 。 然 后 ， 对 照射 灰色 圆 盘 及 深 色 圆 环 的 灯光 增加 亮度 ， 表 
次 要 求 被 测试 者 选择 出 具有 相同 亮度 的 圆 盘 。 这 样 的 过 程 在 不 同 水 平 的 照明 度 下 进行 几 次 。 
结果 ， 每 次 试验 中 被 测试 者 都 会 选择 与 原来 中 间 那 个 圆 盘 一 样 的 圆 盘 。 即 使 进入 被 测试 者 眼 
中 的 总 光 强 度 是 10 到 100 倍 ， 只 有 相对 亮度 起 到 了 作用 。 





变化 的 光照 Ha) ES THRE JG RR 


图 15-9 ”亮度 一 致 性 的 测试 ( 见 L Gros90]) 


视觉 系统 与 亮度 一 致 关系 密切 的 另 一 个 现象 ， 是 亮度 对 比 。 这 种 效果 可 以 从 图 15-10 中 
得 到 证 明 。 在 两 幅 图 中 心 各 有 一 个 相同 灰 度 的 小 圆 盘 。 左 面 图 中 的 小 圆 盘 被 一 个 深 色 圆 环 包 
围 着 ， 右 面 图 中 的 小 圆 盘 被 浅 色 圆 环 包围 着 。 尽 管 两 个 圆 盘 有 同样 的 灰 度 ， 那 个 在 深 色 贺 环 
中 的 显得 更 亮 些 。 这 是 因为 我 们 的 视觉 系统 对 相对 亮度 是 敏感 的 。 看 起 来 好 像 跨越 整个 图 像 
的 整体 亮度 是 连续 的 。 





图 15-10 


亮度 一 致 和 亮度 对 比 的 特性 对 我 们 的 视 党 系统 很 重要 。 既 然 我 们 能 够 看 到 许多 种 不 同 
照明 的 情况 ， 如 果 我 们 不 能 够 补偿 一 个 场景 的 绝对 强度 ， 那 将 永远 不 能 学 会 识别 物体 。 
Grossberg 称 这 种 规格 化 过 程 为 “不 完全 相信 光源 ”(discounting the illuminant) 。 

在 本 章 的 余下 部 分 我 们 将 提出 一 种 与 这 小 节 讨 论 的 物理 现象 相 一 致 的 网 络 结构 : 基本 非 
线性 模型 。 


ww aibbt.com TO 00000 


#15 Ë Grossherg BH 321 


15.2.2 基本 非 线 性 模型 漏 积分 器 


mae ”时间 常 数 ”在 介绍 Grossberg 网 络 之 前 ， 


on E 4 n n 
我 们 将 先 看 一 些 构成 网 络 的 组 成 模块 。 第 一 种 组 成 模块 ? > 
是 “ 漏 " 积 分 器 ( “leaky integrator), QUA] 15-11 所 示 。 这 


个 系统 的 基本 方程 是 
Edn/dt= -n+p 
e P =- n(t)+ p(t) (15.1) 
其 中 的 es 是 系统 的 时 间 常 量 。 15-11 RRSP ae 


对 一 个 任意 的 输入 p(t), MIRRE ya hire 
n(t) = en(0)+ Ai et ~t)dtr (15.2) [15-9] 
例如 ， 如 果 输 入 p (1) 是 常量 日 初 始 条 件 n(0) 是 0， 等 式 (15.2) 将 成 为 


n(t) = p(l - ee) (15.3) 


图 15-12 给 出 了 这 个 响应 的 一 个 图 示 ， 其 中 p = 1，e = 1。 响 应 曲线 以 指数 形 却 趋 于 稳 
定 的 状态 值 1。 





图 15-12” 漏 积分 名 的 响应 曲线 


我 们 需要 注意 漏 积分 器 的 两 种 重要 属性 。 其 一 ， 因 为 方程 (15.1) 是 线性 的 ， 如 果 输 入 
p 按 比例 变化 ， 则 响应 n(1) 将 会 以 同样 的 大 小 按 比例 变化 。 例 如 ， 如 有 果 输 入 加 倍 ， 啊 应 也 
会 加 倍 ， 但 形状 不 变 。 这 在 式 (1$.3) 中 是 明显 的 。 其 二 ， 漏 积分 器 的 响应 速度 由 时 间 和 常数 
决定 。 当 e 减少 时 响应 速度 变 快 ， 当 增加 时 响应 速度 变 慢 ( 见 例题 P15.1)。 
试验 漏 积 分 器 请 用 Neural Network Design Demonstration Leaky Integrator 
(nndlSsli) 。 


并 联 模 型 激励 抑制” 漏 积分 器 组 成 了 Grossberg 的 基本 神经 模型 的 核心 : 并 联 模 型 
( 见 图 15-13)。 这 种 网 络 的 操作 方程 是 


edl) LL aCe) + (br nC) pt- (a(t) + bp” (15.4) 
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其 中 p :是 一 个 非 负 数值 ， 代 表 对 网 络 的 激励 输入 (使 响应 增加 的 输入 )，p -是 一 个 非 

负数 什 ， 代 表 抑 制 输入 (使 啊 应 减少 的 输入 )。 偏 置 值 6+ Al Ob” 是 决定 神经 元 响应 的 上 限 和 

15-10 下限 的 非 负 向 量 ， 下 面 将 有 详细 解释 。 
输入 基本 并 联 模型 





Edn/dt = -n + (bt - n)pt - (n + bp 


图 15-13 ”并 联 模 型 


在 方程 (15.4) 的 右边 有 三 个 部 分 ， 当 这 三 个 部 分 的 最 后 符号 是 正 时 ，n (1 ) 将 会 增加 。 
当 最 后 符号 为 负 的 时 候 ，n.(i) 将 会 下 降 。 为 了 理解 网 络 的 性 能 让 我 们 来 研究 这 三 个 部 分 。 

第 一 部 分 - n(i) 是 一 个 线性 衰减 项 ， 它 在 淖 积 分 器 中 也 可 以 见 到 。 当 n(i) 为 正 时 这 一 
项 为 人 员 ，n(1) 为 负 时 这 一 项 为 正 。 第 二 部 分 (b+ - n(t))p!+， 提 供 非 线性 的 增益 控制 。 当 
n(t) 比 5!+ 小 时 ， 这 部 分 为 负 ， 但 是 当 n(i1) = 4b! 时 变 为 零 。 这 样 实际 就 给 n(i) 设 置 了 上 限 
b+ 。 第 三 部 分 - (n(1)+b-)p -也 提供 非 线性 的 增益 控制 。 它 给 n(i) 设 置 一 个 下 限 -~b-。 

15-14 展示 了 并 联 模型 当 5b5+ =1，5 -=0 和 ee=1l 时 的 性 能 。 在 左 图 中 可 以 看 出 当 激 
励 输入 p* =1 和 抑制 输入 p~ = 0 时 网 络 的 响应 。 在 右 图 p1 = 5，p ”=0。 注 意 到 即使 激励 
输入 增加 了 5 倍 ， 稳 定 状态 的 网 络 啊 应 只 增加 了 2 倍 。 如 果 继 续 增 加 激励 输入 ， 我 们 能 够 发 
现 稳 定 状态 的 网 络 啊 应 将 会 增加 ， 但 总 是 小 于 bt = 1。 


1 -一 -一 1 





图 1S$-14 并 联网 络 的 啊 应 
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如 果 给 并 联网 络 提 供 一 个 抑制 输入 ， 则 稳定 状态 的 网 络 响应 将 pt 
会 降低 ， 但 依然 将 比 ~ 六 大。 总 结 一 下 并 联 模 型 的 操作 ， 如 果 
n(O)E b* H-b ZE, 那么 n(i) 将 保持 在 这 个 限制 中 ， 如 图 15- 


15 所 示 。 0 a 
并 联 模型 是 Grossberg 苋 争 网 络 的 基础 。 我 们 将 在 下 一 市 讨论 


这 种 网 络 ， 用 非 线 性 的 增益 控制 来 规格 化 输入 模式 并 且 在 大 范围 的 和 
总 体 强 度 中 保持 相对 强度 。 
试验 并 联 模 型 请 用 Neural Network Design Demonstration Shunting Network 





( nndi sn), 


15.2.3 两 层 竞争 网 络 


我 们 现在 已 经 作 好 提出 Grossberg 竞争 网 络 准备 。 这 种 网 络 是 受 哺乳 动物 的 视觉 系统 局 发 
的 ， 这 在 本 章 15.1 节 已 作 过 讨论 。 Crossberg 有 Chistoph von der Malsburg 的 工作 [vond73 | KU 
响 ， 而 后 者 又 受 诺 贝 尔 奖 得 主 David Hubel 和 Torsten Wiesel 的 实验 工作 [ HuWi62] 的 影响 。 图 
15-16 展示 了 这 样 一 个 网 络 简 图 。 

短期 记忆 长 期 记忆 Grossberg 网 络 由 三 部 分 组 成 : 第 一 层 ， 第 二 层 和 目 适 应 权 值 。 
第 一 层 是 视网膜 操作 的 一 个 粗略 模型 ， 而 第 二 层 则 代表 视觉 皮层 。 这 个 模型 并 不 完全 说 明 人 
类 视觉 系统 的 复杂 性 ， 但 它 能 够 说 明 视 觉 系 统 的 一 些 特点 。 网 络 包括 短期 记忆 (STM ) 和 长 
期 记忆 (LTM) 的 机 制 ， 并 且 能 够 进行 自 适 应 调整 、 过 滤 、 标 准 化 和 对 比 度 增强 。 在 下 面 几 . 
小 节 中 我 们 将 讨论 网 络 的 每 一 组 成 部 分 的 操作 。 


第 2 层 
( 视 皮 质 ) 





规格 化 对 比 度 增强 


图 15-16 Grossberg 竞争 网 络 
1. 钊 一 层 
Grossberg 网 络 的 第 一 层 接收 外 部 输入 并 且 规 格 化 输入 模式 的 强度 。( 回忆 第 14 章 中 
Kohonen 网 络 当 输入 模式 被 规格 化 的 时 候 表 现 最 好 。 对 于 Grossberg 网 络 这 种 规格 化 被 网 络 
的 第 一 层 实 现 。) 图 15-17 给 出 了 一 个 这 个 层次 的 简 图 。 注 意 它 使 用 了 并 联 模型 ， 以 输入 问 量 
p 计算 出 来 激励 输入 和 抑制 输入 。 
第 一 层 的 运算 方程 是 
ILO LL a(t) + (+b? -aE Wilp- (l(a) + bE Wilp (15.5) 
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Six! 


gdnl/dr= - n! + (tb! - n!) (TW! |p - m! + “bO)[W' Jp 


图 15-17 Grossberg 网 络 的 第 一 层 
正如 我 们 早先 提 到 的 一 样 ， 参 数 s 决定 了 响应 的 速度 。 选 择 e 使 得 神经 元 啊 应 的 比 目 适 
应 权 值 的 变化 要 快 得 多 ， 我 们 将 在 后 面 小 市 讨论 这 个 问题 。 
式 (15.5) 是 一 个 有 激励 输入 [+* W jp 的 并 联 模型 ， 其 中 


1 0 … 0 
0 1 … 0 

‘Wel, | (15.6) 
0 0 aoe 1 


因此 对 神经 元 i 的 激励 输入 是 输入 向 量 的 第 ; 个 元 素 。 
第 一 层 的 抑制 输入 是 [ W' jp， 其 中 


QO 1 ] 
] 0 -~e 1 

- Ww = i . (15.7) 
1 l sae 0 


因此 对 神经 元 i 的 抑制 输入 是 除了 输入 向 量 第 i 个 元 素 的 所 有 元 紊 之 和 。 

加 强 中 心 /抑制 周围 ”由 和 矩阵 + Wi 和 -Wi! 定义 的 连接 模式 叫做 加 强 中 心 /抑制 周围 模式 。 
这 是 因为 对 神经 元 i 的 激励 输入 (使 神经 元 打开 ) 来 自 集中 在 同一 位 置 的 输入 同 量 的 元 素 ( 元 
素 i) ， 同 时 抑制 输入 (使 神经 元 关闭 ) 则 来 自 周围 各 个 位 置 。 这 种 类 型 的 连接 模式 创造 了 一 
种 规格 化 输入 模式 ， 正 如 下 面 将 要 讨论 的 那样 。 

为 了 简便 ， 我 们 将 抑制 偏 置 值 -b! 设 为 0， 从 而 使 并 联 模型 的 下 限 为 0， 并 且 将 激励 仿 
置 值 +b! 的 所 有 元 素 设 为 相同 的 数值 ， 即 

+ ble t+ bl, 1=1,2,,8 (15.8) 
15-14, 因而 所 有 神经 元 的 上 限 将 是 相同 的 。 
为 了 研究 第 一 层 规格 化 的 效果 ， 考 虚 神 经 元 ;的 啊 应 : 


l TĦ 
, at ~ ni(t)+ (+ phen G - ni(t) dup, (15.9) 
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在 稳定 状态 (dni(t)/dt =O) RITA 
Clean 和 人 b' — nl)p; - n! 2p, (15.10) 


MR HH Fak FE RAS THE TCH on 可 得 





b! 
n! 一 有 (15.11) 
] + D4 P; 
这 时 我 们 定义 输入 i 的 相对 强度 为 
p= Be Ht p = > p, (15.12) 
于 是 稳定 状态 神经 元 的 活跃 度 可 以 写成 
十 | 
nl = (T; P)P: (15.13) 


因此 n! 将 与 相对 强度 5, 成 正比 ， 无 论 总 输入 P RERET. LESS, MURATE 
是 有 界 的 


g! 


Se DGD en 45.14 

输入 向 量 已 经 规格 化 ， 从 而 总 的 活跃 度 小 于 ， b1 ， 同 时 输入 向 量 的 单个 元 素 的 相对 强度 
得 到 了 保留 。 因 此 ， 第 一 层 的 输出 ni， 代 表 相 对 输入 强度 p;， 而 并 非 总 的 输入 活跃 度 的 同 
时 振动 强度 Po 这 种 结果 是 因为 采用 了 加 强 中 心 /抑制 周围 的 输入 连接 模式 与 并 联 模 型 的 非 
线性 增益 控制 。 

注意 到 Grossberg 网 络 的 第 一 层 解释 了 人 类 议 党 系统 的 亮度 一 致 性 和 亮度 对 比特 征 ， 也 
就 是 我 们 在 15.2.1 节 的 “视觉 规格 化 ”中 所 讨论 的 。 这 种 网 络 对 于 一 个 图 
像 的 相对 强度 而 非 绝 对 强度 是 敏感 的 。 而 且 ， 试 验证 明 这 种 加 强 中 心 / 抑 
制 周 围 的 连接 模式 是 视网膜 神经 节 细 胞 接收 区 域 的 一 个 有 特色 的 特征 
[ Hube88]。( 接 收 区 域 是 视网膜 上 的 一 个 区 域 ， 那 里 光 感 受 器 馈送 信息 
到 特定 细胞 。 图 15-18 表示 一 个 典型 的 视网膜 神经 节 细 胞 的 加 强 中 心 / 搞 
制 周 围 的 接收 区 域 。“ + "号 表示 激励 区 域 , “ -“ 号 代表 抑制 区 域 。 这 是 
一 个 二 维 的 模式 ， 与 等 式 (15.6) 及 (15.7) 所 描述 的 一 维 连接 不 同 。，) 15-18 

为 了 示例 第 一 层 的 性 能 ， 考 虑 有 两 个 神经 元 的 情况 ， 其 中 + 六 ，s= 
0.1: 











l 
(0.1) 一 一 一 =- ni(t) + (1- ni(t)p,)- ni(t)p, (15.15) 


] 
(0.1) 一 全 一 =- ni(t) + (1 - n3(t)p,) - n2(t)p, (15.16) 


这 个 网 络 对 两 个 不 同 的 输入 向 量 的 响应 请 见 图 15-19。 对 这 两 个 输入 向 量 ， 第 二 个 元 素 是 第 
一 个 元 素 的 4 倍 ， 尽 管 第 2 个 输入 向 量 的 总 强度 是 第 一 个 输入 向 量 的 5 信 ( 即 50 E 10)。 从 
图 15-19 中 可 以 看 到 网 络 的 响应 保持 了 输入 的 相对 强度 ， 而 同时 限制 了 总 = 总 响应 


(ni(t) + n3(t) PHBA) F 1. 


ww aibbt.com TOU 00000 


326 FP ZB P] fh 1 tH 











15-19 第 一 层 的 啊 应 


试验 Grossberg 网 络 的 第 一 层 请 用 Neural Network Design Demonstration Gross- 
berg Layer 7 (nnd15gl1 ) 。 








2. 第 二 层 

短期 记忆 Grossberg 网 络 的 第 二 层 ， 是 一 个 连续 的 instar 层 ， 实 现 几 种 功能 。 第 一 ， 
像 第 一 层 那 样 ， 规 格 化 这 一 层 的 总 活跃 度 。 第 二 ， 它 对 模式 产生 对 比 度 增强 ， 从 而 获得 最 大 
输入 的 神经 元 将 支配 响应 。( 这 种 与 Hamming 网 络 和 Kohonen 网 络 的 “ 胜 者 全 得 "竞争 密切 
相关 。) 最 后 ， 它 像 短 期 记忆 (STM ) 那 样 通过 存储 对 比 度 增 强 模式 操作 。 

图 15-20 是 第 二 层 的 图 示 。 和 第 一 层 一 样 ， 并 联 模型 是 第 二 层 的 基础 。 第 二 层 和 第 一 层 
的 主要 区 别 在 于 第 二 层 使 用 反馈 式 连接 。 反 馈 使 得 网 络 能 够 存储 模式 ， 即 使 是 在 输入 撤消 之 
后 。 反 馈 也 进行 竞争 ， 从 而 产生 模式 的 对 比 度 增强 。 我 们 将 在 下 面 的 讨论 中 讲解 这 些 特性 。 


第 2 层 
AN 
a E = j 加 强 中 心 





Si 


, 抽 制 周转 S2X $2 


edm/dt= -R + (tp -r)i * W En2) + Wal} 
- (+b) WE) 
图 15-20 Grossberg 网 络 的 第 二 层 
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第 二 层 的 运算 方程 是 
sD = (+ COW C) IE WTC) + Wea — 
~ (mt) +7 b*) [> Wi RCOm()) 
EVA aA LL WIE G) + Wal Stee, Btw? tw 提供 了 加 
BALL HY he ede, = Kohonen 网 络 的 权 值 相似 ，W? 由 自 适 应 权 值 组 成 。Wz 的 行 在 训练 
之 后 将 会 代表 原型 模式 。 并 联 模型 的 抑制 输 和 人 是 [| WIJE), EP W = Wi 提供 了 
抑制 周围 的 反馈 连接 。 
为 了 说 明和 第 二 层 的 性 能 ， 考 虑 一 个 由 两 个 神经 元 组 成 的 层 


wy? 
com) | wee |! | | =| 0° an (15.18) 


0 Ge 0.45 0.9 
ü 10(n)* 
7 _ ] n 
fin) = la (nye (15.19) 
这 一 层 的 运算 方程 是 
dnj(t) | 
(0.1) p= = = ni(t) + (1 - ni(t)) 1 fP(ni(t)) + Gw) a | er 
- ni(t) f?(n3(t)) 
(0.1) D - 5(t) + (1 — n3(t) 1? (n3(t)) + Gw) a | 
F dy 二 一 malt) + 一 Not f na\t + \9 a (15.21) 
- nlt) f?(ni(t)) 


对 比 度 增强 ”注意 这 些 等 式 和 Hamming 网 络 及 Kohonen 网 络 的 关系 。 第 二 层 的 输入 是 
原型 模式 (矩阵 W 的 行 ) 和 第 一 层 的 输出 (规格 化 后 的 输入 向 量 ) 的 内 积 。 最 大 的 内 积 与 输入 
模式 最 相近 的 原型 对 应 。 第 二 层 在 神经 元 之 中 实行 竞争 ， 将 易于 产生 输出 模式 时 对 比 度 增强 
一 一 保持 大 的 输出 并 使 小 的 输出 减弱 。 这 种 对 比 度 增 强 比 起 Hamming 网 络 及 Kohonen 网 络 
来 通常 要 缓和 一 些 。 在 Hamming 网 络 和 Kohonen 网 络 中 ， 竞 争 使 除了 一 个 以 外 的 所 有 神经 
元 输出 归 0。 那 个 除外 的 神经 元 是 有 最 大 输入 的 神经 元 。 在 Grossberg HAF, PARIER 
的 值 而 前 弱小 的 值 ， 但 并 无 必要 使 所 有 的 小 值 归 0。 对 比 度 增 强 的 大 小 是 由 传输 函数 OR 
定 的 ， 下 一 节 我 们 将 看 到 这 点 。 

图 15-21 显示 了 当 输 入 向 量 a =(0.2 0.8] 时 第 二 层 的 啊 应 (稳定 状态 的 结果 从 第 一 
层 的 例子 得 到 )， 输 入 向 量 加 入 了 0.25 秒 ， 然 后 撤离 。 

这 种 啊 应 有 两 个 重要 的 特点 。 第 一 ， 甚 至 在 输入 撤消 之 前 ， 茶 些 对 比 度 增 强 已 经 开始 产 
生 。 第 二 层 的 输入 是 
| (,w’)7a' = [0.9 0.45]| °°? | = 0.54 (15.22) 


(,w’)7a' = [0.45 0.9] °°. | = 0.81 (15.23) 


因此 第 二 个 神经 元 是 第 一 个 神经 元 输入 的 1.5 倍 。 然 而 在 0.25 秒 之 后 ， 第 二 个 神经 元 的 输 
出 是 第 一 个 神经 元 输出 的 6.34 倍 。 高 与 低 的 对 比 度 急剧 地 增加 了 。 
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图 15-21 ”第 二 层 啊 应 


响应 的 第 二 个 特点 是 当 输 入 被 置 0 的 时 候 ， 网 络 进一步 增强 对 比 度 ， 并 且 存 储 模式 。 从 
图 15-21 中 可 以 看 出 ， 当 输入 撤消 (0.25 秒 ) 后 第 一 个 神经 元 的 输出 衰减 至 0， 而 同时 第 二 个 
神经 元 的 输出 达到 一 个 稳定 状态 值 0.79。 即 使 在 输入 撤消 之 后 ， 这 个 输出 仍然 得 以 保存 。 

15-19, (Grossberg 将 这 种 行为 称 作 回荡 。) 正 是 非 线性 反馈 使 得 网 络 存 储 模 式 ， 而 且 出 现 引起 对 比 度 

增强 的 加 强 中 心 / 抑 制 周 国 的 连接 模式 (由 +W- 和 -W 决定 )。 

定向 接收 区 域 ”说 一 点 离 题 的 话 ， 注 意 到 我 们 在 Grossberg 网 络 的 两 层 都 使 用 了 加 强 中 
心 / 抑 制 周 转 的 绪 构 。 对 不 同 的 应 用 可 以 采用 其 他 的 连接 模式 。 例 如 回想 本 章 早 些 的 时 候 讨 
论 过 的 应 急切 断 问题 。 一 种 被 提议 用 来 实现 这 种 机 制 的 结构 是 定向 接收 区 域 
| GrMi89 ] ， 如 图 15-22 中 所 示 。 对 于 这 种 结构 ，“ 开 ” (激励) 连接 来 自 区 域 © 
的 一 边 ( 用 蓝 色 区 域 表示 ),“ 闭 (抑制) 联接 来 自 区 域 的 为 一 边 (用 日 色 区 域 
Ws E 图 15-22 

定向 接收 域 的 作用 过 程 见 图 15-23 所 示 。 当 区 域 与 一 个 边 对 齐 时 相应 的 
神经 元 被 激活 (大 的 啊 应 )。 如 果 区 域 没 有 与 一 边 对 齐 ， 则 神经 元 是 不 活跃 的 (小 的 响应 )。 这 就 
解释 了 我 们 为 什么 能 够 感受 到 一 个 根本 就 不 存在 的 边 。 正 如 图 15-23 中 最 右边 的 接收 域 所 示 。 


Fa 
S, 


不 活路 





活跃 





图 15-23 ”定向 接收 区 域 的 操作 
对 定向 接收 区 域 及 如 何 将 它们 加 进 一 个 神经 网 络 结构 以 便 提前 观察 的 讨论 ， 请 参考 
-GrMi89]。 这 篇 论文 也 讨论 了 特征 填充 的 机 制 。 ni (0) 
3. 传输 函数 的 选择 
Grossberg 第 二 层 的 行为 在 很 大 程度 上 依赖 于 传输 函数 f(r). BRN, 


假定 一 个 输入 已 经 被 使 用 了 一 段 时 间 ,因而 输出 已 经 稳定 在 图 15-24 中 Selaa 
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所 示 的 模式 。( 每 个 点 代表 单个 神经 元 的 输出 。) 如 果 输 入 被 撤消 ， 图 15-25 展示 f*(n ) 的 选择 
将 会 怎样 影 啊 网 络 的 稳 态 啊 应 ( 见 | Gross82 | ) 。 


存储 模式 
fn) n2(co) TE 


完美 地 存储 任 
何 模式 , 但 是 
BK TRE 


抑制 噪声 ， 
增强 对 比 度 ， 
但 是 不 量化 





图 15-25 {ERAR 产 (m) 的 作用 (摘自 LGross82 | ) 


如 果 传 输 函 数 是 线性 的 ， 则 模式 被 完美 的 存储 。 遗 憾 的 是 模式 中 的 噪声 锌 放大 了 ， 并 
且 和 有 效 输入 一 样 容 易 被 存储 了 ( 见 例题 P1$.6)。 如 果 传 输 函 数 是 比 线性 的 慢 ( 例 如 f Cn) = 
1-e-")， 则 稳 态 响应 与 初始 条 件 无 关 ， 所 有 以 非 零 值 开始 的 神经 元 将 在 稳定 状态 达到 同一 
水 平 。 所 有 的 对 比 度 都 被 消除 而 噪声 被 放大 。 

比 线性 快 的 传递 函数 (例如 Pn) = (n)*) 产 生 胜 者 全 得 的 竞争 。 只 有 那些 有 最 大 初始 值 
的 神经 元 得 到 存储 ; 所 有 其 他 神经 元 都 被 设置 为 0。 这 就 使 噪声 的 影响 达到 最 小 ， 但 使 啊 应 
量化 成 有 或 无 信号 值 ( 和 Hamming 网 络 和 Kohonen 网 络 一 样 )。 

一 个 S 型 函数 对 于 小 信和 号 是 比 线性 快 的 ， 对 于 中 等 信号 是 近似 线性 的 ， 对 于 大 信和 号 是 
比 线性 慢 的 。 当 一 个 S 型 传输 函数 在 第 二 层 被 使 用 ， 模 式 对 比 度 增强 ; 较 大 的 值 锌 放大 ， 
较 小 的 值 被 缩小 。 所 有 小 于 一 定 水 平 (被 Grossberg PRA IER EAEL Cross76 的 初始 神经 元 输 
出 将 衰减 到 0。 这 就 将 比 线性 快 的 传输 了 葡 数 的 噪声 抑制 与 线性 传输 也 数 所 产生 的 完美 存储 结 
合 在 一 起 。 
试验 Grossberg 网 络 的 第 二 层 请 用 Neural Network Design Demonstration Gross- 
berg Layer 2 (nnd15g12). 





4. 学 习 规 则 
长 期 记忆 Grossberg 网 络 的 第 三 个 组 成 部 分 是 自 适 应 权 值 W* AAM Grossberg 
称 这 些 自 适 应 权 值 为 长 期 记忆 (LTM)。 这 是 因为 W 的 行将 代表 已 被 存储 的 而 且 能 够 被 网 络 
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识别 的 模式 。 就 像 在 Hamming 网 络 和 Kohonen 网 络 一 样 ， 与 输入 模式 最 接近 的 存储 的 模式 


将 在 第 二 层 产生 最 大 的 输出 。 在 下 一 小 节 我 们 将 更 加 详细 讨论 Crossberg 网 络 与 Kohonen 网 
络 的 关系 。 风 -的 一 个 学 习 规则 由 下 式 给 出 : 
dw, ;(t) 
dt 

AES. 2.)HAWHES PHA PRON ew, RNA BATE 
方程 中 都 曾经 见 过 ， 而 第 二 项 实现 Hebb 型 学 习 。 这 些 项 一 起 实现 在 第 13 草 讨论 过 的 市 性 
减 的 Hebb 规则 。 

回忆 在 第 13 AP ni) RRR KAS FD) BRERA. RADY 
下 学 习 规 则 来 实现 : 


=al~ wi, (t) + ni(t)nj(t)} (15.24) 


2 
LOIRO] (15.25) 
或 者 用 回 量 形式 
naoi = an?(t){-[,w(t)] +n'(t)} (15.26) 


这 里 ,w(t) 是 由 W 的 第 i 行 的 元 素 所 组 成 的 向 量 ( 见 等 式 4.4) 

方程 (15.25) 右 边 的 项 用 n?(1) 乘 ， 使 得 学 习 ( 并 遗忘 ) 只 有 当 n5(i) 为 非 零 的 时 候 才 会 
发 生 。 这 是 第 13 章 等 式 (13.32) 所 介绍 的 instar 学 习 规 则 的 连续 实现 。 在 下 面 的 小 节 中 我 们 
将 证 明 方 程 (15.25) 与 式 (13.32) 等 价 。 为 了 说 明 Grossberg 学 习 规 则 的 性 能 ， 考 虑 一 个 每 层 
有 2 个 神经 元 的 网 络 ， 权 值 修改 方程 如 下 : 


2 

SL 9) whale) + fC)! (15.27) 
2 

da 1- whale) + nhl)! (15.28) 


2 
watt) _ da (15.29) 


di 
dwit) = n3(t)i- w3a(t) + n2(t)| (15.30) 
其 中 学 习 速 度 系数 被 置 为 1。 为 了 简化 我 们 的 例子 ， 假 设 两 种 不 同 的 输 人 模式 以 0.2 秘 为 


周期 交替 提交 给 网 络 。 我 们 还 假设 ,与 权 值 的 收敛 相 比 第 一 层 和 第 二 层 是 非常 快 的 ， 因 此 神 
经 元 输出 在 0.2 秒 时 已 经 足够 稳定 了 。 第 一 层 和 第 二 层 对 于 不 同 的 输入 模式 的 输出 将 是 





对 模式 1, n = ee] ， n -| | (15.31) 
对 模式 2: n = pid? n? = [° (15.32) 


模式 1 用 第 二 层 的 第 1 个 神经 元 编码 ， 模 式 2 用 第 二 层 的 第 二 个 神经 元 所 编码 。 

R] 15-26 说 明了 自 适应 权 值 的 响应 ， 开 始 时 所 有 的 权 值 都 置 为 0。 注意 到 权 值 矩阵 的 第 
一 行 (w31(t) 和 w?2(1)) 只 在 n?(1) 是 非 零 的 时 间 里 得 到 调整 并 且 收 敛 到 相应 的 n 模式 
(ni(t) =0.9 和 nl(1) =0.45$)。( 权 值 矩阵 第 一行 的 元 素 在 图 15-26 中 用 粗 线 表示 。) 而 且 , 权 
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值 矩 阵 的 第 二 行 (w2 (OA wz GRE n EAE SAAT E, HA oe EH 
的 n 模式 (nl1(1)=0.49 和 nl(i1) =0.9)( 权 值 矩 阵 的 第 二 行 在 图 15-26 中 用 细 线 表示 )o 





0.75 





图 15-26 自 适 应 权 值 的 啊 应 


试验 自 适 应 权 值 请 用 Neural Network Design Demonstration Aaaptive Weights 
(nnd15aw) 。 





15.2.4 与 Kohonen 规则 的 关系 


在 上 一 节 我 们 指出 Grossberg 学 习 规 则 是 第 13 章 中 介绍 的 instar 学 习 规 则 的 连续 实 现形 
式 。 现 在 我 们 来 证 明 这 个 事实 。 我 们 也 要 证 明 Grossberg 网 络 最 简单 的 形式 是 第 14 章 中 介绍 
的 Kohonen 竞争 网 络 的 一 个 连续 实现 形式 。 

首先 再 写 出 方程 (15.25) 的 Grossberg 学 习 规 则 : 





nee = an*(t){- w(t) ] +ni(t)| (15.33) 
如 果 用 
di;w(t)] w(t + At) - ww) 
y ne ae (15.34) 
作为 导数 的 近似 值 ， 则 可 以 把 方程 (1$.33) 重 与 成 
w(t + At) = w(t) + a(At)n2(t){- w(t) +n (e) (15.35) 


(比较 这 个 等 式 和 第 13 章 中 由 等 式 (15.33) 表 示 的 instar 规则 。) 如 果 整 理 各 项 ， 此 式 可 以 转 
化 为 
w(t + At) = {1 -a(At)n3(t)} wt) + (At) nz(e)im(t) (15.36) 
为 了 进一步 简化 分 析 ， 假 设 第 二 层 使 用 了 比 线性 快 的 传输 函数 ， 因 此 那个 层 只 有 一 个 神经 元 
能 够 有 非 零 输 出 ， 称 之 为 神经 元 ;”。 于 是 只 有 权 值 矩阵 的 i” 行 能 够 被 修改 : 
owt + At) = -al w(t) + iain (t) (15.37) 
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HE d =a(At)n**(t). 

这 几乎 和 我 们 在 第 14 章 等 式 (14.13) 介 绍 的 竞争 网 络 的 Kohonen 规则 相同 。 获 胜 神 经 
元 的 权 值 向 量 ( 有 非 零 输出 ) 将 向 当前 输入 模式 的 规格 化 形式 n! 移 近 。 

在 本 章 提 出 的 Grossberg 网 络 和 基本 的 Kohonen 竞争 网 络 之 间 有 三 个 主要 区 别 。 第 一 ， 
Grossberg 网 络 是 一 种 连续 网 络 ( 满 足 一 组 非 线 性 微分 方程 )。 第 二 ，Grossberg 网 络 的 第 一 层 
目 动 规格 化 输入 问 量 。 第 三 ， Grossberg 网 络 的 第 二 层 能 够 实现 一 种 “ 软 ” 竞 争 而 不 是 Koho- 
nen 网 络 的 那 种 胜 者 全 得 的 竞争 。 这 种 软 竞 争 使 得 第 二 层 不 只 一 个 神经 元 能 够 学 习 。 这 使 

Grossberg 网 络 像 一 个 特征 图 那样 运行 。 


15.3 小结 
基本 的 非 线性 模型 
漏 积分 器 
dake) =- n(t)+ p(t) 
MEA 
"DT 
| 
并 联 模型 


N tt aaa 


输入 基本 并 联 模 型 


n(t) 





a Edn/dt = -n + (bt - n)pt - (n+ bp 


ww ai bbt. com DOOO000 


#15 Ë Grossberg AB 333 





两 层 竞争 网 络 





第 一 层 
edn!/dt = -nl+(+bl - n!)[(*W!]p - (ni +-bDEW']p 
dn (t l + hl 1 + VW! 1 -lr ww 
e= =- n! (t) + (b =n'(2))[* W Jp - (n'(t) +~ bj)[ W Ip 
1 0 0 QO 1 ] 
re ae oO} -w li 0 
0 0 … I 1 1 … 0 
加 强 中 心 抑制 周围 13-27 
稳定 状态 神经 元 的 活跃 度 
+ b! Py_ _ Pi : 
al = (PHPP a = FBP = Do, 
第 二 层 


edn?/dt = - R + (+ b — nn’) {/* WwW | 
P(n) + Wal} - (œ + ~ b?) [7 W En) 
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dn? t) 
di 





传输 函数 的 选择 


学 习 规 则 





=- (+b -n(t)) |i WR)) + Wa | 
- (nt) +7 b*)[~- WR(Om(:)) 


第 2 层 
rN 
十 十 加 强 中 心 


Í 2(n) n2(co) 


完美 地 存储 任 
何 模式 ， 但 是 
放大 了 噪声 


diw bj _ an2(t)i- [,wt)] +n)! 


dt 
(连续 的 instar Z3 ) 
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15.4 ”例题 
P15.1 演示 漏 积分 器 的 性 能 系数 s 的 作用 ， 见 图 15-27 中 所 示 ， 输 入 p = 1。 
V £35) 
+ n n 
> 
p 
€Edn/dt= -N +p 
图 15-27 ” 漏 积 分 器 
解 
漏 积 分 器 的 运算 方程 是 


: date =- n(t)+ p(t) 


这 个 微分 方程 对 任 一 个 输入 p(t) RE 
n(t) = e~”*n(O) + a mal 1 ~ t)dt 


如 果 p(t) = 1， 解 将 是 


t 
n(t) = e-‘*n(0) p$ dt 


我 们 想 说 明 这 个 响应 随 & 而 改变 。 啊 应 将 是 
n(t) = ein(0)+(1- eF) = e “*(n(O) - 1) +1 
响应 从 n(0) 开 始 ， 然 后 以 指数 形式 增长 (或 以 指数 形式 衰减 ， 取 决 于 n(0) 是 大 于 1 还 
是 小 于 1) 接 近 n(%w)=1 的 稳 态 响应 。 随 着 。 减少 ， 响 应 变 得 更 快 (因为 e- “衰减 得 更 快 )， 
而 稳 态 值 保持 不 变 。 图 15-28 说 明 当 8=1，0.5,，0.25，0.125，n(0) =0 时 的 响应 。 请 注意 


稳 态 值 对 每 种 情况 都 保持 1。 只 有 反应 的 速度 发 生变 化 。 





图 15-28 对 漏 积分 器 啊 应 的 作用 
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P15.2 再 次 利用 图 15-27 中 的 漏 积 分 器 ， 设 s= 1。 


Ci) 找 出 一 个 近似 于 泼 积分 融 微 分 方程 的 差分 方程 ， 通 过 用 下 式 估 计 导 数 。 
dn(1) | n(t + At) -— n(t) 
dt ~ At 


(ii) 用 Azi=0.1， 比 较 这 个 差分 方程 的 啊 应 和 p(t)=1 7 n(0) =0 微 分 方程 的 啊 应 ， 
在 0<t<1 区 域 比较 这 两 者 。 


(iii) 使 用 漏 积分 器 的 差分 方程 模型 ， 证 明 啊 应 是 以 前 输入 的 加 权 平 均 。 
解 
(i) 如 果 对 导数 作 近 似 ， 我 们 发 现 


n(t + At) - nlt) 
AN OEREN P 


n(t+At) = n(t) + Ati- n(t) + p(t) = (1- At)n(t) + (At) p(t) 
(ii) WRS At = 0.1， 我们 得 到 差分 方程 
n(t +0.1) = 0.9n(t) + O.1p(t) 
WES p(t) = 1 Fi n(0)=0, WARMITA n( 1) 18S: 
n(0.1) = 0.9n(0) + 0.1p(0) = 0.1 
n(0.2) = 0.9n(0.1) +0.1p(0.1) = 0.9(0.1) + 0.1(1) = 0.19 
n(0.3) = 0.9n(0.2) + 0.1p(0.2) = 0.9(0.19) + 0.1(1) = 0.271 
n(0.4) = 0.9n(0.3) +0.1p(0.3) = 0.9(0.271) + 0.1(1) = 0.3439 
n(0.5) = 0.9n(0.4) +0.1p(0.4) = 0.9(0.3439) + 0.1(1) = 0.4095 
n(0.6) = 0.4686 n(0.7) = 0.5217 n(0.8) = 0.5695 
n(0.9) = 0.6126 n(1.0) = 0.6513 


15-31 


从 P15.1 微分 方程 的 解 是 A 
n(t) = enO) + (1 =- ez = (1 - e`’) 


15-29 展示 了 微分 方程 解 与 差分 方程 解 之 间 的 关系 。 曲 线 代表 微分 方程 的 解 ， 圆 图 代 
表 差 分 方程 的 解 。 这 两 个 解 十 分 接近 ， 并 且 能 够 通过 缩短 间隔 At 而 任意 的 接近 。 





图 1$-29 “差分 方程 与 微分 方程 的 比较 
(iii) 再 次 考虑 我 们 在 (ii) 题 中 得 到 的 漏 积 分 髓 的 差分 方程 模型 ; 
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n(t+0.1)=0.9n(t) + O.lp(t) 
如 果 以 0 为 初始 条 件 ， 我 们 得 到 
n(0.1) = 0.9n(0) +0.1p(0) = 0.1p(0) 
n(0.2) = 0.9n(0.1) + 0.1p(0.1) = 0.910.1p(0)| 十 0.1p(0.1) = 0.09 p (0) + 0.1p(0.1) 
n(0.3) = 0.9n(0.2) + 0.1p(0.2) = 0.081 p(0) + 0.09p(0.1) + 0.1 (0.2) 


n(kO.1) = 0.11(0.9)*"' p(O) + (0.9)*-7p (0.1) +*+ p((k - 1)0.1)} 
因此 漏 积分 器 的 响应 是 以 前 输入 p (0), ，p(0.1)，…，p((-1)0.1) 的 加 权 平 均值 。 注 
意 当 表 的 输入 对 啊 应 的 贡献 比 早 些 输 入 的 大 。 
P15.3 找 出 图 P15.4 所 示 的 并 联网 络 的 啊 应 ,其 中 e=1, bt =1, b =1, p* =0， 
po =10, n(0)=0.5。 


输入 基本 并 联 模 型 





edn/dt=-n+(bt-n)pt -(n+b)p 


图 15-30 ”并 联网 络 
解 
并 联网 络 的 运算 方程 是 
ed) a(t) + (b*- n(t)) p*~ (a(t) + b>) p> 
对 于 那些 提供 的 参数 值 上 式 变 为 
dats) -—n(t) —(n(t) +1)10 =— 1lin(et) - 10 
这 个 方程 的 解 是 15-33 
n(t) = eum(0)+| eo 10)dr 
或 
n(t) = e-110.5+ [= 19) Tag) 


me] oe LS 15-31. 
对 这 种 响应 有 两 件 事 需要 注意 。 第 一 ， 和 所 有 的 并 联网 络 一 样 ， 响 应 永远 不 会 降 到 
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图 15-31 ”并联 网络 响应 


- 以 下 ， 在 本 题 中 就 是 - 1。 随 着 抑制 输入 p “增加 ， 稳 态 响 应 将 会 降低 ， 但 永远 不 可 能 
RF- 。 响 应 的 第 二 个 特点 是 当 输 入 增加 的 时 候 ， 响 应 的 速度 也 会 戎 之 增加 。 例 如 ， 如 
果 输 入 从 p~ = 10 增加 到 p = 100， 则 响应 将 是 


n(t) = e-10140 5 + [a Ti (1 2 e1011) 


KA e Othe RAR, mR RER, 

P15.4 RE Grossberg 网 络 第 一 层 在 2 个 神经 元 的 情况 下 的 响应 ， 其 中 +*5' =l, Tb = 
0,e=1。 输 入 向 量 p=[c 2c]. 假设 初始 条 件 设 为 0。 演示 c 对 响应 的 作用 。 

解 

在 这 种 情况 下 第 一 层 的 微分 方程 的 是 


] 
an tt =- nj(t) + (1 — ni(t))(c) - ni(t)(2e) =- (1+ 3e)nj(t) +c 
] 
Ena) sen Gls Gen a a ee 11 + ee 
这 些 方程 的 解 是 


t 

ni(t) = e~ (i+3e)t7n 1(Q) + [e909 (ede 
t 

n}(t) = e~ 1430 tn IQ) p | e7390- (26d 


如 果 初 始 条 件 设 为 0 的 话 ， 这 些 方程 简化 为 


wit (; £) (1 — e7043) 


2 -(1+3e}): 
ni(t) = Gre eee : Pe) 


注意 第 一 层 的 输出 保留 和 输入 相同 的 相对 强度 ; 神经 元 2 的 输出 通常 是 神经 元 1 输出 的 
2 倍 。 这 种 情况 与 等 式 (15.13) 一 致 。 而 且 ， 总 的 输出 强度 (ni(Cti) + n2(t)) 从 来 没有 超过 
tb! = 1 ,如 式 (15.14) 中 所 预见 的 那样 。 随 。 的 增加 ， 它 对 响应 有 两 种 影响 。 第 一 ， 稳 信介 
略 有 增加 。 第 二 ， 响 应 变 得 更 快 了 ， 因 为 e ”衰减 比 ce 增加 更 快 。 

P15.5 考虑 Grossberg 网 络 的 第 二 压 。 假设 第 二 屋 的 输入 已 经 加 了 一 - 段 时 间 然 后 才 撤 际 
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( 置 为 0)。 
(i) 找 出 在 第 二 层 的 输入 被 撤消 之 后 ， 描 述 第 二 层 总 输出 
N2(1) = >, n3(t) 
变化 的 微分 方程 
(ii) 找 出 在 第 二 层 的 输入 对 消 之 后 ， 描 述 第 二 层 相 对 输出 
Hit. ae) 
N?(t) 
变化 的 微分 方程 
解 


(i) 第 二 层 的 运算 由 方程 (1$.17) 摘 述 : 


eID = (+ (B= I WJEC) ) + Wea 


- (m(t) + 7 bL Wf (n*(t)) 
如 果 输 入 被 撤消 ， 则 Wa 是 0。 为 了 简化 起 见 ， 我 们 将 设 抑 制 偏 置 值 - ty 为 0, MAR 
们 设置 激励 偏 置 值 + by 的 所 有 元 素 为 + 6b*。 神 经 元 i 的 啊 应 由 下 式 给 出 : 


~ dni(t) oe n3(t) y (+ b2 _ ni(t)if?(n3(t))| = n2(t)1 DUP (ni(t))| 


dt 
这 可 以 重新 组 合 产生 
dni(t) 2 eer ee: 2 i 2/ ， 2 
=- ni(t) + PIERD = AO È 
如 果 定 义 
F(t) = >) f'(ni(t)) 
我 们 可 以 将 方程 简化 为 
2 
drite) = (14 F(t) nlt) +*+ BIP) 


为 了 得 到 总 活跃 度 ， 这 个 等 式 对 i 求 和 产生 


ee = (14 F7(t))N7(t) +t b? F(t) 


这 个 方程 描述 了 第 二 层 的 总 活跃 度 随时 间 的 变化 。 
(ii) 相对 活跃 度 的 导数 是 

d df ni(t) 
zlazi ] = | aan = 
WA 我 们 得 到 








a) eae vic ll- + FPA) n2(t) + + BPR 


ns(1) 
NVC) 
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L- (1+ PCD)N2CD) + + bl FAC) EF 
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消去 右边 两 项 产生 


*(t) 


eg (AM 1 = Fae { PROG ~ 3305 


+ B21 FC) 
j : 








= b> F(t) fni(t)) ni0) 
di ! VC) F*(t) N*(t) 


如 果 展开 括号 中 的 项 ， 可 以 将 此 式 改写 成 一 种 更 为 有 用 的 形式 : 


ACAO) at) 
F) M) 





_ 2 2 B 2 
= Ay Nyt (t)) N CG) — nit) F(t) ] 


| s s? 

= a AMAO AO = nO) DI PAA] 

2 ROI È ole) - PR] 
其 中 

2( 2 
g(ni(1)) = ABE 
将 这 种 表达 式 与 以 前 的 等 式 相 结合 我 们 得 到 
ERO] = PROL D ROL) - MO) 
这 种 形式 描述 输出 相对 强度 展开 的 微分 方程 对 于 展示 第 二 层 的 特点 是 很 有 用 的 ， 就 像 我 
15-37] 们 在 解 下 一 题目 时 将 会 见 到 的 那样 。 

P15.6 假设 Grossberg 网 络 第 二 层 的 传输 函数 是 线性 的 。 
(i) 证 明 当 输入 被 撤消 之 后 ， 第 二 层 的 相对 输出 不 会 变化 。 


(ii) 在 什么 条 件 下 第 二 层 的 总 输出 在 输入 被 撤消 之 后 会 误 减 到 0? 
解 


(i) 从 P15.5 中 我 们 知道 在 输入 被 撤消 之 后 第 二 层 的 相对 输出 将 根据 下 式 展开 : 


Hla nz(t)] = + b?n2(t) Du rae) g*(ni(t)) = g(ni(t)) |] 
如 果 第 二 层 的 传递 函数 fn ) 是 线性 的 ， 则 


f'(n) = en 
因此 


Oe 
[| 
mn, 
3 
Maaar” 
f 
i 





cu 
n 


如 果 把 这 个 表达 式 代 人 微分 方程 ， 我 们 得 到 


ev [ni(t)] = = + bnl) 3 i(e)le —ec]] =0 
因而 相对 输出 并 没有 发 生变 化 。 
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(ii) 在 输出 被 撤消 之 后 ，P15.5 中 第 二 层 的 总 输出 按 下 式 展 开 : 
ANC) 2g FA NAC) + * AEP) 


2 


如 果 广 (nm ) 是 线性 的 ， 则 
F(t) = ST 2(n2(1)) = >) cn3(t) = cd, na) = cN*(t) 


=] 


因此 微分 方程 可 以 与 作 
e wH) = (1+ eN? MDN? t) +t bleN CG) =- J1 =+ bet eN? NCG) 15-38 
为 了 找到 这 个 方程 的 平衡 解 ， 我 们 将 导数 置 为 0: 
0=- il-+bc+eN (i))N’() 
因此 有 两 个 平衡 解 : 


N (t) = 0 或 N?(t) eal 

我 们 想 知 道 在 哪 种 条 件 下 总 输出 将 会 收敛 到 这 些 可 能 的 解 。 考 虑 两 种 情况 : 
l. 1>+ be 

对 于 这 种 情况 ， 总 输出 的 导数 是 


eee Z $1 + be + oN*A4)} N21) 


对 于 正 的 MOKAER TA EAR Ra KE A). A, RR ee EO: 
lim N (è) = 0 
2. 1l<+*b’c 
(a) 如 果 N2(0) > (+ b?c -1)/c， 那么 总 输出 的 导数 将 为 负 ， 直 到 N*(t)=(* b?e-1)/c, 
当 导 数 变 为 0 时。 因此 
lim N? (t) e (+ b’c-1) 


b 
(b) 如 果 N2(0) < (+ Be -1)/e， 那么 总 输出 的 导数 将 为 正 ， 直 到 N?(1) = (+ be -1)/e, 
当 导 数 变 为 0 时。 因此 
im NAC) = 
所 以 ， 如 果 第 二 层 的 传输 函数 是 线性 的 ， 那 么 如 果 1> + b’c, WMH HEME 0。 如 
果 1< + 02e， 则 总 输出 将 收敛 于 (+ b?c - 1)/c。 在 任何 情况 下 ， 相 对 输出 将 保持 不 变 。 15-39 
作为 这 些 结果 的 例子 ， 考 虑 如 下 第 二 层 的 方程 组 : 


dD h(a) + E OOOO 


dn3(t) 2 ( 2 2 2 ) | 2( )i 
下 一 一 n5 t)+ (1.5 - nt))inat) 一 n2(t n\t 
在 这 种 情况 下 ，e =1，+ 6?=1.5, c=1, Am 1<*b*c. W BRAAF 
lim N7(t) = (+ b%e - 1) — U5- - 0.5 


在 图 15-32 中 我 们 能 够 看 到 第 二 层 对 于 两 组 不 同 初始 条 件 啊 应 。 
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Say ie . Sd 
mo) = [07 me Wao tg 


正如 所 预计 的 那样 ， 两 种 初始 条 件 下 总 输出 都 收 伍 于 0.5。 而 且 ， 因 为 两 种 初始 条 件 下 
的 相对 值 是 相同 的 ， 两 种 条 件 下 输出 收敛 于 同样 的 值 。 


4 5 a ea ptt 





. 2 
ta eee, N (t) 
SON oe ea 
ee, n E) 
一 一 一 一 一 一 
n(t) 


图 15-32 ”第 二 层 对 于 线性 f(n) aby 


P15.7 证 明 由 方程 (1S$.24) 给 出 的 带 误 减 的 连续 Hebb 规则 与 由 等 式 (13.18) 给 出 的 带 豪 
11540| RRJ Hebb 规则 等 价 。 





解 
带 训 减 的 连续 Hebb 规则 是 
dwi.;(t) 
~ = al- w? (t) + ni(t)nj(t)} 
如 果 我 们 合计 导数 为 
dwi,;(t) w$ (t + At) — wi, Ct) 
di ~ At 
则 Hebb 规则 变 为 
w? (t+ At) = wilt) + aAti- wł (t) + ni(t)nj(t)) 
这 个 等 式 可 以 被 重新 组 合 得 到 
wi Ct + At)= [1- aAt |] wi.;(t) 十 aAtiniCt)niCt)| 
FE in] BIBRA 
W(t 4 At) = [1 — oAc] W(t) + aAtin (i)n (2) "} 
与 式 (13.18) 


Wg) = (1-— Y)WCg - 1) + aa(g)p’ (q) 
11541 比较 ， 可 以 看 出 它们 有 相同 的 形式 。 


15.5 Riz 


本 章 所 介绍 的 Grossberg 网 络 是 受 较 高 等 的 誉 椎 动物 的 视觉 系统 局 发 。 为 了 激励 网 络 ， 我 
们 对 主要 视 路 进行 了 简要 描述 。 我 们 还 讨论 了 某 些 视觉 幻觉 ， 帮 助 我 们 理解 视觉 系统 的 机 制 。 

Grossberg 网 络 是 两 层 连续 竞争 网 络 ， 在 结构 和 运算 上 与 第 14 章 介绍 的 Kohonen 竞争 网 
络 十 分 相似 。Grossberg 网 络 的 第 一 层 对 输入 模式 进行 规格 化 。 它 展示 视 党 系统 如 何 使 用 加 
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强 中 心 /削弱 周围 的 连接 方式 和 并 联 模型 以 实现 自动 增益 控制 ， 从 而 规格 化 总 活跃 度 。 

Grossberg MRR EKAP, 对 比 增强 输出 模式 并 将 其 存 和 人 短期 记忆 。 它 使 用 非 
线性 反馈 和 加 强 中 心 /前 罚 周 围 连接 模式 以 实现 竞争 和 和 存储。 传输 也 数 的 选择 及 反馈 连接 方 
式 的 选择 决定 竞争 的 程度 (例如 胜 者 全 得 ,适度 的 对 比 增强 ， 或 对 模式 无 改变 )。 

Grossberg 网 络 使 用 instar 学 习 规则 调整 权 值 ， 将 原型 模式 以 长 期 记忆 方式 存储 。 当 第 
二 层 实 现 “ 胜 者 全 得 ”的 竞争 时 ， 这 种 学 习 规 则 就 与 第 14 草 中 介绍 的 Kohonen 学 习 规则 是 等 
价 的 。 

与 Kohonen 网 络 一 样 ，Grossberg 网 络 的 关键 问题 是 学 习 过 程 的 稳定 性 。 因 为 更 多 的 输 
人 加 给 了 网 络 ， 权 值 矩 阵 可 能 永远 不 会 收敛 。 这 个 问题 在 第 14 章 有 深入 讨论 。 在 第 16 AR 
们 将 介绍 一 类 网 络 设计 来 解决 这 个 困难 : 自 适 应 谐振 论 (ART) 网 络 ，ART 网 络 是 本 草 介 绍 
的 Grossberg 网 络 的 直接 后 代 。 在 本 章 并 未 讨论 的 Grossberg 网 络 的 万 一 个 问题 ， 是 实现 网 络 
的 微分 方程 的 稳定 性 。 例 如 ， 在 第 二 层 ， 我 们 有 一 个 非 线 性 反馈 的 微分 方程 组 。 关 于 这 种 系 
统 的 稳定 性 我 们 能 够 得 出 什么 总 的 结论 ? 第 17 章 将 提供 一 个 对 此 问题 的 深入 讨论 。 
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这 是 第 一 篇 关于 自 组 织 特征 映射 神经 网 络 的 论文 。 这 种 网 络 是 较 高 级 的 峭 椎 动物 视 
觉 皮 层 的 模型 。 这 篇 文章 对 后 来 Kohonen 和 Grossberg 关于 特征 映射 的 工作 有 所 影响 。 
习题 

E15.1 考虑 图 15-33 中 所 示 的 漏 积分 器 

(i) 求 n() 在 e=1，n(0)=1，p(t)=0.5 时 的 啊 应 。 

(ii) K n(t)Æe=1, n(0)=1, p(t) =2 B EIH 

(iii) 3K n(t)Æe=4, n(0)=1, p(t) =2 时 的 啊 应 。 

(iv) 检验 对 上 面 几 部 分 的 答案 ， 与 一 个 MATLAB M-XHR HIIRT ae. EH 

ode45 例 行 程序 。 作 图 表示 每 种 情况 的 啊 应 。 


15-44| 





Edn/dt= -n +p 


图 15-33 ” 漏 积 分 器 


E15.2 考虑 图 15-34 中 所 示 的 并 联网 络 。 
(i) 求 并 联网 络 在 s=2，b+ =3，5 =1，p+ =0，p- =5, n(0) =]1 时 的 响应 。 
(if) 求 并 联网 络 在 E=2，b!+ =3, db” =1，p+ =0，p- =50，m(0) = 1 时 的 响应 。 
(iti) 求 并 联网 络 在 s=2，8+ =3, bo =1，p+ =50, p~ =0，n(0) =1 时 的 响应 。 
(iv) 写 一 个 MATLAB 的 M- 文 件 以 模拟 并 联网 络 ， 检 验 对 上 面 几 部 分 的 解答 ， 
使 用 ode45 例 行 程 序 。 画 出 每 种 情况 的 啊 应 图 。 
(v) 解释 漏 积 分 器 与 并 联网 络 在 运算 上 的 区 别 。 
输入 基本 并 联 模型 





gdn/dt = -n + (bt - n)pt - (n + D) p 


图 15-34 并 联网 络 
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E15.3 假设 Grossberg 网 络 的 第 一 层 有 两 个 神经 元 ， 其 中 + o'=0.5, =0.5， 输 入 向 量 


p=[2 1 。 假 设 初始 状态 置 为 0。 
Ci) 用 等 式 (1$.13) 求 出 第 一 层 的 稳定 状态 的 啊 应 
(ii) 求 出 第 一 层 的 微分 方程 的 解 。 验 证 稳 态 啊 应 与 (i) 的 答案 相同 。 
(iii) 检验 你 的 答案 ， 写 一 个 MATLAB 的 M- 文 件 模 拟 Grossberg 网 络 的 第 一 层 。 
使 用 ode45 例 行 程 序 。 画 出 啊 应 图 。 
E15.4 以 输入 向 量 p= [20 10)” 重 做 习题 E15.3。 
E15.5 求 出 描述 第 一 层 忆 输 出 变化 为 


N (ti) = S nj (t) 


的 微分 方程 (使 用 例题 P15.5 中 所 用 的 技术 )。 
E15.6 假设 Grossberg 网 络 的 第 二 层 有 2 个 神经 元 ， 其 中 fF(n)=2n, e=1, *b°%=1, 
-b* = D。 输 入 已 经 施加 了 一 段 时 间 ， 然 后 撤消 。 
(i) 稳定 状态 总 的 输出 lm N GEED? 
(ii) 在 5* =0.25 的 情况 下 重 做 (i)。 
(iii) 检验 前 两 部 分 的 答案 ， 通 过 写 MATLAB M- 文 件 模拟 Grossberg 网 络 第 二 层 
来 进行 。 使 用 ode45 例 行 程 序 。 画 出 下 列 初 始 条 件 下 的 啊 应 : 
2 0.2 
iia H = as in 
E15.7 假设 Grossberg 网 络 的 第 二 层 的 传输 函数 是 P(n)=ex(n)’, HA eal, +8 =1。 
(i) 使 用 例题 P15.5 的 结果 ， 证 明 在 输入 被 撤消 之 后 ， 所 有 第 二 层 的 相对 输出 
将 衰减 至 0， 但 除了 有 最 大 初始 条 件 ( 胜 者 全 得 苑 争 ) 的 那个 输出 。 
(ii) 4c 为 何 值 时 总 输出 N*(i) 将 有 一 个 非 零 稳定 点 (稳定 状态 值 )? 
(iii) 如 果 ( 这 的 条 件 得 到 满足 ， 那 么 N*(:1) 的 稳 态 值 将 是 多 少 ? 这 依赖 于 初始 
条 件 N*(0) =3 吗 ? 
(iv) 写 一 个 MATLAB M- 文 件 并 模拟 在 c =4 和 N“(0) = 3 时 对 第 二 层 的 总 啊 
应 ， 检 验 前 三 部 分 的 答案 。 
E15.8 模拟 Grossberg 网 络 的 自 适 应 权 值 的 响应 。 假 设 系数 *。= 1。 假 设 两 种 不 同 的 输入 
模式 被 交替 地 提供 给 网 络 每 次 0.2 秒 。 还 假设 与 权 值 的 收敛 相 比 第 一 层 和 第 二 
层 的 收敛 极 快 ， 因 而 神经 元 输出 在 0.2 秒 之 内 实际 保持 不 变 。 第 二 层 和 第 一 层 


b 


对 两 种 不 同 的 输入 模式 的 输出 将 是 
atts ae [Oo]. =La 


| - oh a 2. (°| 
对 模式 2: n my hg , w= i 


E15.9 用 带 衰 减 的 Hebb 规则 ， 即 方程 (15.24) 重 做 习题 E15.8， 而 不 是 用 方程 (15 .25) 
的 instar 规则 。 解 释 两 种 啊 应 之 加 的 差别 。 
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第 16 章 目 适 应 谐振 理论 


16.1 目的 


在 第 14 章 和 第 15 章 里 我 们 知道 了 竞争 性 网 络 的 一 个 关键 问题 是 学 习 过 程 的 稳定 性 。 不 
能 保证 ， 当 很 多 输入 加 到 一 个 网 络 时 ， 权 值 矩 阵 会 最 终 收 伍 。 在 这 一 章 将 给 出 一 个 改进 型 的 
竞争 学 习 ， 即 目 适 应 谐振 理论 (ART) ， 它 可 以 用 来 殉 服 学 习 过 程 的 稳定 性 问题 。 


16.2 理论 和 实例 


第 15 章 提出 的 Grossberg 网 络 和 第 14 章 的 竞争 性 网 络 的 一 个 关键 问题 是 它们 不 能 总 是 形 
成 稳定 聚 类 (或 分 类 )。Grossherg 证 明了 | Gros76] 如 果 输 入 模式 的 数量 不 是 太 大 ， 或 者 这 些 输入 
模式 不 会 形成 相对 于 第 二 层 神 经 元 个 数 太 多 的 聚 类 ， 那 么 学 习 过 程 最终 是 稳定 的 。 然 而 ， 他 也 
指出 标准 的 竞争 网 络 对 于 任意 的 输入 模式 ， 不 会 有 稳定 的 学 习 过 程 。 学 习 过 程 的 不 稳定 性 源 于 
网 络 的 自 适 应 性 (或 可 逆 性 )， 这 种 自 适 应 性 导致 先前 的 学 习 内 容 税 后面 的 学 习 内 容 破 坏 掉 。 

稳定 性 /可 塑性 ”Grossberg 称 这 个 问题 为 “稳定 性 /可 效 性 二 难 问 题 "。 如 何 能 让 系统 只 
接纳 重要 的 新 模式 ， 而 在 响应 不 相关 的 模式 时 仍 保持 稳定 性 呢 ? 我 们 知道 生物 系统 就 非常 擅 
长 这 一 点 。 举 个 例子 ， 哪 怕 你 已 很 久 没 见 过 你 的 母 杀 ， 并 在 其 间 见 过 了 许多 新 面孔 ， 但 你 还 
是 能 很 容易 的 认 出 她 的 脸 。 

Grossberg 和 Gail Carpenter 提出 了 一 个 理论 ， 叫 做 自 适 应 谐振 理论 (ART) ， 用 来 解决 稳定 性 
/可 塑性 两 难 问题 (参见 [ CaGr87a]，| CaGr87b] ，[ CaGr90]，[ CaGrRe91] 和 [CaGrMa92])。ART 
网 络 建立 在 第 15 章 的 Grossberg 网 络 的 基础 之 上 ， 其 主要 革新 是 “期 望 值 ”的 使 用 。 当 每 个 输 
人 模式 提供 给 该 网 络 时 ， 将 其 与 该 模式 最 接近 的 匹配 的 原型 向量 (期 望 值 ) 相 比较 。 如 果 该 模 
式 向 量 与 原型 向 量 不 足以 匹配 ， 那 么 它 将 作为 一 个 新 的 原型 向 县 而 被 选中 。 通 过 这 种 方式 ， 
先前 学 习 的 记忆 内 容 ( 原 型 ) 就 不 会 被 新 的 学 习 内 容 所 破坏 。 

讨论 所 有 的 自 适 应 谐振 理论 的 变型 超出 了 本 章 的 范围 ， 但 我 们 将 详细 讨论 一 种 ART 网 
络 一 一 ART1( 参 见 [CaGr87a])。 这 种 特别 的 网 络 仅 为 二 值 输入 向 量 而 设计 。 但 是 ， 我 们 可 
以 从 这 个 体系 结构 里 ， 了 解 自 适 应 谐振 理论 的 主要 特征 。 


16.2.1 自 适应 谐振 概述 


基本 的 ART 体系 结构 如 图 16-1 所 示 。 它 是 第 15 章 Grossberg 网 络 的 一 个 变型 (与 图 15- 
16 比较 ) ， 被 用 来 稳定 学 习 过 程 。ART 体系 结构 的 改进 包括 三 个 部 分 : 第 二 层 (1L2) 到 第 一 
层 (L1) 的 期 望 值 、 调 整 子 系统 和 增益 控制 。 在 这 一 节 里 ， 我 们 将 描述 ART 系统 的 一 般 操 
作 ; 在 以 后 的 几 小 节 里 ， 我 们 将 详细 讨论 每 一 个 子 系统 。 

回顾 第 15 章 我 们 知道 ，Grossberg 网 络 的 L1- 12 连接 为 instar 形态 ， 用 来 执行 聚 拓 (或 
分 类 ) 操 作 。 当 一 个 输入 模式 被 提交 给 网 络 时 ， 它 (经 过 规格 化 后 ) 将 与 L1 - L2 权 值 矩阵 相 
乘 。 然后， 在 第 二 层 就 会 通过 竞争 决定 权 值 矩阵 的 哪 一 列 最 接近 输入 向 量 ， 这 一 列 即 被 移 癌 
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图 16-1 基本 的 ART 体系 结构 


输入 向 量 。 在 学 习 结 束 后 ，L1 - L2 权 值 矩阵 的 每 一 列 都 是 一 个 原型 模式 ， 它 将 代表 输入 加 
量 的 一 个 聚 类 (或 分 类 )。 

在 ART 网 络 里 ， 学 习 也 发 生 在 从 第 二 层 到 第 一 层 的 一 系列 反馈 连接 中 。 这 些 连接 是 
outstar 形态 (参见 第 13 章 )， 用 来 进行 模式 回忆 。 当 第 二 层 的 一 个 市 点 被 激 洒 时， 它 将 在 第 
一 层 对 应 一 个 原型 模式 (期 望 值 )。 第 一 层 接着 将 期 望 值 与 输入 模式 进行 比较 。 

当期 望 值 与 输入 模式 不 能 进行 密切 匹配 时 ， 调 整 子 系统 将 重 置 第 二 层 。 这 种 重 置 将 取缔 
当前 的 优胜 神经 元 ， 同 时 取消 当前 的 期 望 值 。 当 上 次 的 优胜 神经 元 被 取缔 之 后 ， 第 二 层 里 将 
进行 一 次 新 的 竞争 。 第 二 层 里 的 新 的 优胜 神经 元 又 通过 L2- L1 连接 向 第 一 层 产生 一 个 期 望 
值 。 这 个 过 程 会 持续 到 L2 - L 期望 值 与 输入 模式 足够 密切 地 匹配 时 才 结 束 。 

在 下 面 几 小 结 里 ， 我 们 将 分 析 ART 系统 的 每 一 个 系统 一 一 这 些 子 系统 应 用 到 一 个 特殊 
的 ART 网 络 ARTI([CaGr87a])。 我 们 会 首先 描述 反映 这 些 子 系统 操作 的 微分 方程 ， 然 后 导 
出 每 个 子 系统 稳 态 响应 。 最 后 ， 总 结 ART] 系统 的 所 有 操作 。 


16.2.2 第 一 层 


第 一 层 的 主要 用 途 是 比较 输入 模式 和 和 来自 第 二 层 的 期 望 值 模 式 。( 在 ART1 里 ， 两 种 模 
式 都 是 二 值 的 。) 如 果 模 式 不 能 密切 匹配 ， 那 么 调整 子 系统 会 重 置 第 二 层 。 如 有 如 模式 能 足够 密 
切 地 匹配 ， 第 一 层 将 结合 期 望 值 和 输入 形成 一 个 新 的 原型 模式 。 

ART! 网 络 的 第 一 层 如 图 16-2 所 示 ， 它 非常 近似 于 Grossberg 网 络 的 第 一 层 (参见 图 15- 
17)。 不 同 之 处 在 于 对 并 联 模 型 的 激励 输入 和 抑制 输入 。 对 于 ARTI 网 络 ， 第 一 层 里 不 执行 
规格 化 过 程 ， 所 以 我 们 不 能 从 输入 向 量 中 得 到 “加 强 中 心 /抑制 周围 ”(on-center/off-surround) 
的 连接 。ARTI1 第 一 层 的 激励 输入 由 输入 模式 和 L1 - L2 期 望 值 结 合 构成 。 扣 制 输入 则 由 来 
自 第 二 层 的 增益 控制 信号 构成 。 下 面 我 们 将 解释 这 些 输入 怎样 在 一 起 工作 。 

第 一 层 的 运算 方程 为 


, dm (+) =-n'(t) + (* bi - m'(t))ip+ W'a (t) (16.1) 


dt 
- (n! (t) + b)[- W']a (s) 
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增益 控制 aaa 


€ dn!/dt = - n! + (tb! - n!) {p+ W2:'a2} - (n! + -by) [W1] a 


图 16-2 ART1 网 络 的 第 一 层 
而 第 一 层 的 输出 计算 为 


其 中 


al = hardlim + (n!) (16.2) 


l, n>0 
0, ne<0 

方程 (16.1) 是 并 联 模型 ， 拥 有 激励 输入 p+ yP:1a:(1) ， 它 是 输入 向 量 与 L2 - Li 期望 什 
的 和 。 例 如 ， 假设 第 二 层 的 第 ; 个 神经 元 在 竞争 中 获胜 ， 那 么 它 的 输出 是 1， 而 其 他 神经 元 
的 输出 是 0。 由 此 ， 我们 得 到 


rdia ae | (16.3) 


0 


wile? = [WB wl | :|= w (16.4) 
I 


其 中 w! 是 矩阵 WAS j 列 。( 和 矩阵 W2:1 利 用 outstar 规则 训练 ， 这 会 在 后 面 的 小 节 里 介 


绍 ,) 现 在 我 们 可 以 看 到 
p+ W2'! 92 = p+ wr (16.5) 


因此 对 第 一 层 的 激励 输入 是 输入 模式 与 L2- L1 期 望 值 的 和 。L2 -Ll 矩阵 的 每 一 列 代 表 了 
一 个 不 同 的 期 望 值 (原型 模式 )。 以 后 我 们 会 看 到 ， 第 一 层 利 用 AND 操作 将 输入 模式 与 期 望 


值 结合 起 来 。 
对 第 一 层 的 抑制 输入 即 是 增益 控制 项 [Wi] 引 (1) ， 其 中 
l i ] 
-Wi - i (16.6) 
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可 见 ， 对 第 一 层 每 个 神经 元 的 抑制 输入 即 为 第 二 层 所 有 输出 的 上 总和。 既然 我 们 在 第 2 层 采 用 
了 “ 胜 者 全 得 ”( winner - take - al) 的 竞争 方法 ， 那 么 每 当 第 二 层 处 于 活动 状态 时 ， 竞 争 后 就 
有 一 个 而 且 只 有 一 个 对 的 非 零 元 素 。 因 此 ， 对 第 一 层 的 增益 控制 输入 ， 当 第 二 层 活 跃 时 为 
1， 当 第 二 层 不 活跃 (所 有 神经 元 的 输出 都 为 0) 时 为 0。 增益 控制 的 目的 在 我 们 分 析 第 一 层 的 
稳 态 行为 时 将 会 很 明显 。 


稳定 状态 分 析 
第 一 层 中 神经 元 i 的 响应 可 描述 为 
dn a | 8 
Sn, eC s n!){ p. + > w ta? } — (np + b') >) a3 (16.7) 
p=! Jel 


其 中 s<< 1， 所 以 短期 记忆 轨迹 (short-term memory trace)( 神 经 元 的 输出 ) 的 改变 比 长 期 记忆 
thi (long-term memory trace) (AVE ALM) HELE 

我 们 想 检查 这 个 系统 在 两 种 情况 下 的 稳 态 响应 。 第 一 种 情况 是 第 二 层 不 活跃 ， 因 此 对 所 
有 的 j} 有 a? = 0。 第 二 种 情况 里 第 二 层 是 活跃 的 ， 因 此 有 一 个 神经 元 的 输出 为 1， 所 有 其 他 
神经 元 的 输出 为 0。 

考虑 第 二 层 不 活跃 的 第 一 种 情况 。 因 为 所 有 a; =0， 所 以 方程 (16.7) 人 简化 为 





l 
| (16.8) 
在 稳定 状态 (dni(:1)/dt =0) 时 ， 有 
O=-ni+(* bl -nl)p. =-(+p,)ni+?* b'p, (16.9) 
如 果 求 解 稳定 状态 时 神经 元 输出 ni, RISE 
+ b! p, 
n! = (16.10) 
l+ p; 


因此 ， 如 果 p =0, W n!=0; WR p,=1， 则 n}= *5'/2>0。 由 于 我 们 选择 第 一 层 的 转移 
函数 为 函数 hardlim + ， 故 得 
a =p (16.11) 
所 以 ， 当 第 二 层 不 活跃 时 ， 第 一 层 的 输出 与 输入 模式 相同 。 
现在 我 们 来 考虑 第 二 层 活路 的 第 二 种 情况 。 假 如 神经 元 j 是 第 二 层 的 优胜 神经 元 。 那 么 
a?=1 且 a?=0 (kz 关 j)。 此 时 方程 (16.7) 简 化 为 


] 
e =- n} +(* b! — n!)fp; + wit} -(n} +7 6b) (16.12) 
在 稳定 状态 (dni(1)/dt =0) 时 ， 有 
O=- n! + (+b! -ni)ip,+ weit = (ni +7 b) 
(16.13) 


=— (1l+ p; + wi + 1)ni+(’ b'(p. + ws) -7 b’) 


求解 稳定 状态 时 神经 元 输出 ni. 我们 得 到 
+ bp, + wij) -7 b 
] 和 (16.14) 


= 2:1 
2+ p,+ Wi; 


回忆 第 一 层 应 该 结合 输入 向 量 和 来 自 第 二 层 的 期 望 值 (表示 为 :1) 。 由 于 我 们 处 理 的 是 
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二 值 模式 (无 论 是 输入 还 是 期 望 值 ) ， 我 们 可 以 利用 逻辑 AND( 与) 运算 结合 这 两 个 向 量 。 换 


句 话 说 ， 我 们 希望 n; 在 p, 或 wi;; 中 有 一 个 为 0 时 小 于 0， ni 在 M wi MSF LAT 
0。 把 这 个 条 件 用 于 等 式 (16.14) 中 ， 我 们 得 到 如 下 式 子 : 


+ bi(2)- -bl>0 (16.15) 
"pes p <0 (16.16) 

合 在 一 起 即 为 
+ b'(2) >- bb > * 8! (6.17) 


例如 ， 我 们 令 +151 =1 且 -5'=1.5， 即 满足 上 述 条 件 。 
因此 ， 如 果 式 子 (16.17) 得 到 满足 ， 并 且 第 二 层 神 经 元 ; 处 于 活路 状态， 那么 第 一 层 的 


输出 为 


a! =p ry wo (16.18) 
其 中 门 代表 人 逻辑 与 运算 。 
注意 ， 我 们 需要 增益 控制 来 实现 AND 运算 。 考 虑 等 式 (16.14) 的 分 子 : 
tb (p+ wi;)- b' (16.19) 


其 中 项 - b 与 增益 控制 项 相 乘 ， 该 项 这 里 为 1。 如 果 整 个 这 一 项 不 存在 ， 那 么 式 子 (16.19) 
将 会 大 于 0( 因 此 nl 将 大 于 0) ， 而 不 管 ”或 w334 是 否 大 于 0。 这 就 成 了 OR( 或 ) 运 算 ， 而 不 
是 AND( 与 ) 运 算 。 我 们 在 讨论 调整 子 系统 时 将 会 看 到 ， 第 一 层 执行 AND 运算 将 是 关键 。 
当 第 二 层 不 活路 时， 增益 控制 项 为 0。 这 是 必须 的 ， 因 为 我 们 希望 在 第 二 层 没有 期 望 值 
激活 的 这 种 情况 下 ， 第 一 层 仅 对 输入 模式 作出 响应 。 
小 结 第 一 层 稳定 状态 运算 : 
若 第 二 层 不 活跃 ( 即 所 有 a? = 0)， 


a =p (16.20) 
若 第 二 层 活 跃 ( 即 有 一 个 a; = 1)， 
al = pN WwW” (16.21) 
为 了 说 明 第 一 层 的 运算 ， 假 设 网 络 参数 如 下 : 
e=0.1,* b' = 1,7 b! = 1.5 (16.22) 
再 假设 第 二 层 里 有 两 个 神经 元 ， 输 入 向 量 有 两 个 元 素 并 且 有 如 下 权 人 矩阵 和 输 和 人 : 
wet =| | 和 p= [°] (16.23) 


如 果 我 们 采用 第 二 层 是 活跃 的 这 种 情况 ， 且 第 二 层 第 二 个 神经 元 万 得 了 竞争 ， 则 第 一 层 
的 运算 方程 为 


dni 1 l 2:1 | 
(0.1) 7 =- mt + (1 - miter + wrat- (ni + 1.5) er 
-~—-nl+(1-—n}){0+1} -(ni 41.5) =-3n; -0.5 
dn ] 1 2:1 
ye ee e |s + Ww 一 + 1 .4 
(0.1) T n} + (1 - n}){P3 227- (nh ) (16.25) 


~~ n} + (1 - n}){14+1} -(n} 4+ 1.5) =-4n2 +0.5 


化 简 得 


#16 Ë ALED BR IV É 35] 


dn! 

A = — 30n! -5 (16.26) 
dn j 

T = — 40n, +5 (16.27) 


在 这 个 简单 的 例子 中 我 们 可 以 求 出 这 两 个 方程 相近 形式 的 解 。 如 有 果 我 们 假设 两 个 神经 元 
都 从 零 初 值 开 始 ， 那 么 结果 是 
nl(1) pine ha (16.28) 


E ae aE _ e740] (16.29) 


它们 的 图 形 见 图 16-3 


图 16-3 第 一 层 的 响应 | 

注意 ，ni(1) 收 敛 于 一 个 负 值 ， 而 nd (UP IEA. Ae, af (1) RF O, aà 

(uF 1( 回 忆 第 一 层 的 转移 函数 为 hardlim + )。 这 与 我 们 的 稳 态 分 析 一 致 (参见 等 式 
(16.21))， 因 为 


omc[o of] [ee aaa 


试验 ART1 网 络 的 第 一 层 请 用 Neural Network Design Demonstration ARTI Layer 
1 (nndi6all ) 。 





16.2.3 第 二 层 

ART! 网 络 的 第 二 层 与 第 15 BAY Grossberg 网 络 第 二 层 几 乎 相同 。 它 的 主要 目的 在 于 对 
比 增强 它 的 输出 模式 。 对 于 我 的 ART1 网 络 的 实现 ， 对 比 增强 将 是 “ 胜 者 全 得 WAPITIA, 
所 以 只 有 接受 到 最 大 输入 的 神经 元 才 会 有 非 零 竹 出 。 

Grossberg 和 ARTI 网 络 的 第 二 层 之 间 有 一 个 主要 的 差别 。ARTI 的 
第 二 层 利 用 了 一 个 可 被 重 置 的 积分 器 。 在 这 种 积分 器 之 中 ， 如 图 16-4 n n 
HR, AH oO 信和 号 变 为 正 值 的 时 候 ， 任 何 正 的 输出 都 会 被 重 置 为 0。 这 
种 被 重 置 的 输出 将 保持 抑制 一 段 很 长 的 时 间 ， 以 致 它们 不 会 被 张 动 到 0 


qo 


图 16-4 
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ZE, (一 段 " 长 "时 间 指 的 是 直到 充分 的 匹配 发 生 并 且 权 值 已 被 更 新 。) 

在 最 初 的 ARTI 论文 中 ，Carpenter 和 Grossberg 提出 重 置 机 构 用 一 个 门 偶 极 子 场 来 实现 
[CaGr87j。 他 们 后 来 提出 了 一 个 更 为 复杂 的 生物 学 模型 ， 在 他 们 的 ART3 体系 结构 中 使 用 
了 化 学 的 神经 传送 器 [CaGr90]。 就 这 里 的 目标 来 说 ， 我 们 不 会 涉及 专 广 的 生物 学 实现 方法 。 

图 16-5 完整 显示 了 ARTI 网 络 的 第 二 层 。 再 次 指出 ， 它 与 第 15 BBY Grossberg 网 络 第 
二 层 几 乎 相同 (参见 图 13-20) ， 除 了 那个 可 重 置 的 积分 器 以 外 。 重 置信 号 d 是 调整 子 系统 的 
给 出 ， 这 个 我 们 将 在 后 面 的 小 节 里 讨论 。 无 论 何 时 第 一 层 的 输入 信号 与 L2- L 期 望 全 发 生 
ARA, CRR FRAR. 

ARTI 网 络 第 二 层 与 Grossberg 网 络 第 二 层 的 男 一 个 小 区 别 是 ARTI PHT RT eer ek 
数 。 传 输 函 数 在 (m) 用 于 “加 强 中 心 / 抑 制 周围 ” 式 反 馈 连 接 ， 此 时 第 二 层 的 输出 被 计算 为 革 = 

16-10) hardlim* (下 )。 第 二 个 传输 函数 的 使 用 是 因为 我 们 希望 第 二 层 的 输出 信号 是 -一 个 二 值 信 和 号 。 
第 2 层 





”十 “加 强 中 心 





€ dn?/dt = -m+ (tb? - n2){[+W2]f20n2) + W!2a!} 
- (n2 + “b2) [“W?2] f2(n2) 


图 16-5 ART] 网 络 的 第 二 层 
第 二 层 的 运算 方程 为 
e dnt) =. n (t) + (+ b’ 一 ee ie W JE (t)) fy W! 24) | 


- (n’(t) + b)[- W ]f (n*(t)) (16.31) 
这 是 一 个 并 联 模型 ， 具 有 激励 输入 1[ W] (t) + Wa |1， 其 中 +W 提供 了 “加 强 中 
心 " 的 反馈 连接 (与 第 15 章 的 Grossberg 网 络 第 一 层 和 第 二 层 相 同 ， 参 见方 程 (13.6))，W 
由 自 适 应 权 值 构成 ， 类 似 于 Kohonen 网 络 的 权 值 。 它 们 按照 instar 规则 训练 ， 这 在 以 后 的 一 

小 节 中 将 会 看 到 。 在 训练 后 ，Wi “的 各 行将 代表 各 个 原型 模式 。 
并 联 模型 的 抑制 输入 是 [- Wf(m(t))， 其 中 -Wr 提供 “抑制 周 罩 ” 的 反馈 连接 (与 
Grossberg 网 络 的 第 -一 、 二 层 相 同 ， 见 方程 (15.7))。 为 了 演示 第 二 层 的 执行 过 程 ， 考 虑 拥有 

16-11 两 个 神经 元 的 一 层 ， 具 有 
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1:2\T 
eaoat s |) [E] we = [" ) | =| °° an (16.32) 


1 ] CwWL2)7 ] 
10(n)? 0 
r n), n> | 
f Cn) = | "i oak (16.33) 
该 层 的 运算 方程 为 
(0.1) dnj(t) =— ni) + (1 — ni(t)) 1 f?(ni(t)) + Gw?) "al } 
dt | (16.34) 
- (ni(t) + 1) f?(n3(t)) 
(0.1) dna(t) =— nlt) + (1 — nát) 1 ¢?(n3(t)) + Gw?) 7 al} 
dt (16.35) 


~ (n3(t) + 1) ¢?(ni(2)) 

它们 在 形式 上 第 15 Æ Grossberg 第 2 层 的 例子 (参见 方程 (15.20) 和 方程 (15.21)) 相 同 ， 除 了 -如 
= 1 外 。 这 允许 nf(t) 和 星 ( 电 的 范围 在 -1 与 +1 之 间 。 

第 二 层 的 输入 是 原型 模式 ( 权 值 矩阵 Wi 的 各 行 ) 与 第 一 层 输出 的 内 积 。( 这 个 权 值 矩阵 的 
各 行 已 经 规格 化 ， 在 以 后 的 一 小 节 中 会 有 解释 。) 最 大 的 内 积 与 最 接近 第 一 层 输出 的 原型 模式 相 
对 应 。 随 后 在 第 二 层 里 发 生 神 经 元 竞争 。 传 输 函 数 这 (n) 被 选 作 为 一 个 “ 快 于 线性 ”的 传输 函数 
(参见 第 15 Æ 15.2.3 节 中 "传输 函数 的 选择 "对 于 产 (m) 的 影响 的 讨论 )。 这 个 选择 强迫 拥有 最 
大 输入 的 神经 元 具有 正 的 n 值 ， 而 其 他 神经 元 具有 人 负 的 n 值 (适当 选择 网 络 参数 )。 竞 争 结束 后 ， 
由 于 采用 了 传输 函数 hardlim + 计算 层 的 输出 ， 故 有 一 个 神经 元 的 输出 为 1， 而 其 他 的 神经 元 输出 
都 为 0。 

图 16-6 显示 当 输 入 同 量 为 a =L1 0] 时 第 二 层 的 响应 。W! “的 第 二 行 由 于 al 而 具有 
较 之 第 一 行 更 大 的 内 积 ， 所 以 神经 元 2 赢得 了 竞争 。 在 稳定 状态 下 ，nz(t ) 具 有 一 个 正 的 
值 ， 而 n1(1) 具 有 一 个 负 的 值 。 稳 定 状态 下 第 二 层 的 输出 因而 是 





图 16-6 第 二 层 的 响应 
我 们 可 以 小 结 第 二 层 的 稳定 状态 运算 如 下 : 


ww ai bbt. com 0D0000ED 


354 IPE PA Hh 18 tf 
> i 如 果 ((;W ) a! = max | (,w'’*) a ]) 
”lo， 其 他 


AEN 试验 第 二 层 ART] 网 络 请 用 Neural Network Design Demonstration ART1 Layer 2 
SSTA (nnd16al2), 


(16.37) 





16.2.4 调整 子 系统 


ART KARZAI — PKI Re WBF AR. CMA EF L2 - 11 期 望 值 与 输 
人 模式 之 间 是 否 充 分 死 配 。 当 不 充分 匹配 时 ， 调 整 子 系统 会 癌 第 二 层 发 出 一 个 重 置信 号 。 重 
置信 号 将 导致 前 一 个 获胜 神经 元 长 时 期 抑制 ， 从 而 使 另 一 个 神经 元 在 竞争 中 获胜 。 
16-13) 图 16-7 显示 了 调整 系统 。 


调整 子 系统 





E€ dn/dt = -n° + (+b0 — 110)[+Wolp - (ne + ~b0)[-Wo]a! 


图 16-7 ART] 网 络 的 调整 子 系统 


调整 子 系统 的 运算 方程 为 
e da CD LL pCt) (+ 69 = nt) 1* Wpi = (na(D + -6°)1- Weal} (16.38) 
这 是 一 个 并 联 模型 ， 具 有 激励 输入 + Wp, HH 


+W = la a … a] (16.39) 
因此 ， 此 激励 输入 可 写成 | 
+ Wp = [a a e alp = ad, Pj = al pl’ (16.40) 
其 中 最 后 一 个 等 式 成 立 是 因为 p 是 一 个 二 值 回 量 。 


调整 子 系统 的 抑制 输入 是 - W al ， 其 中 | 
-W° =[B8 8 - B] (16.41) 


因此 ， 抑 制 输入 可 以 写成 
TEI -Wa' = [8 B * Bla! = BD, al) = pla | (16.42) 


ww ai bbt. com DO0D0DO0O0O* 


#16 Ë BELL YH 355 


一 旦 激励 输入 大 过 抑制 输入 ， 调 整 子 系统 就 会 被 驱动 。 考 虑 下 面 的 稳 态 和 运算: 
O=- n +(* Oo - n°) {al p| | - (n +- b°) jela 四 





(16.43) 
=- (1+alp) +Bla']”)n°+* (alph -~ 6°(pla'l’) 
OKE n°, 488 
+ b (al “) _- po( I p 

Beal) == wea ew 

(1+alp| + gla [^ 

Stb ==, WY alpi -plal >0 时 ，n? >0， 也 即 

0 | aa a 
n° >0, Hr < GEP (16.45) 

|p| 


警戒 “由 于 a= hardlim +(no)， 故 上 式 即 为 导致 第 二 层 重 置 的 条 件 。 项 o 被 称 为 警戒 
参数 ， 必 须 落 在 范围 0 < o< 1 内 。 如 果 警 戒 值 接近 1， 那 么 除非 al 接近 于 p， 否 则 将 引起 重 
置 。 如 果 警 戒 值 接近 0，al 不 接近 p 也 能 防止 重 置 。 警 戒 参 数 决 定 了 由 原型 向 量 创 建 的 分 类 
(或 聚 类 ) 的 粗略 情况 。 

回忆 等 式 (16.21)， 无 论 何 时 第 二 层 处 于 活路 状态 ,都 有 al = p 门 w:1。 因 此 总 有 |p| 大 
于 等 于 | a | 。 当 每 个 输入 p 有 1 的 地 方 期 望 值 品 '! 也 有 1 时 ， 它 们 两 个 相等 。 因 此 ,， 当 p 
Aw 的 不 匹配 足够 显著 有 时， 调整 子 系统 会 导致 重 置 的 发 生 。 发 生 重 置 所 需要 的 不 匹配 程 
度 由 警戒 参数 o RE. 

为 了 演示 调整 子 系统 的 运算 过 程 ， 假 设 e=0.1, a=3, B=4 (p=0.75), 








| 
p=| | H a = i (16.46) 
则 运算 方程 变 为 
dn°(t) | 
(0.1) T, == n°(t) + (1 ~ n°(t))i3(p, + ps)! (16.47) 

- (n°(t) + 1)14Ca} + al)! 
或 

dn_(: = - 110n°(t) + 20 (16.48) 


di 

图 16-8 画 出 了 响应 过 程 。 此 例 中 ， 由 于 n*(1) 为 正 ， 所 以 一 个 重 置 信号 将 被 发 向 第 二 
层 。 进 一 步 ， 因 为 警戒 参数 o=0.75， 而 且 p 只 有 两 个 元 素 ， 所 以 无 论 什 么 时 候 p 和 a 不 相 
等 ， 都 会 发 生 重 置 。( 如 果 警 戒 参 数 被 设 成 。=0.25， 由 于 |al| /ip| = 1/2， 故 对 于 等 式 
(16.46) 中 的 p 和 a ， 将 不 会 发 生 重 置 。) 

对 稳定 状态 下 调整 子 系统 的 运算 小 结 如 下 : 

0 = [i 当 [ai| Wjpl < 0] Bt (16.49) 
0, 其 他 

试验 调整 子 系 统 请 用 Neural Network Design Demonstration Orienting Subsystem 
(nnql6os ) 。 
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图 16-8 ”调整 子 系统 的 响应 


16.2.5 学 习 规 则 : 11-2 


ARTI 网 络 有 两 个 分 别 的 学 习 规则 ; 一 个 用 于 LI - L2 连接 ,一 个 用 于 L2 - L1 连接 。 
L1 - L2 连接 使 用 一 种 instar 学 习 过 程 学 习 识 别 一 系列 原型 模式 。L2 - L1 连接 收 使 用 一 种 
outstar 和 学习 过 程 重 演 (或 回忆 ) 一 系列 原型 模式 。 这 一 节 里 ， 我 们 将 讨论 Li- L2 instar 学 习 
规则 ， 下 一 节 将 讨论 L2- Ll outstar 学 习 规 则 。 

谐振 ”我 们 应 该 注意 到 LI- L2 连接 与 L2 - L1 连接 是 同时 更 新 的 。 每 当 输 入 模式 和 期 
望 值 改 生 了 适当 的 匹配 ， 在 调整 子 系统 的 控制 下 ，W! A W?'! 都 会 被 更 新 。 这 个 匹配 过 程 ， 
以 及 随后 的 适应 过 程 ， 被 称 为 谐振 ， 自 适应 谐振 理论 由 此 而 得 名 。 

1 . 子 集 / 超 集 二 难 问题 

除了 一 个 主要 区 别 外 ，ART1 网 络 LI- L2 连接 的 学 习 与 15 章 的 Grossberg 网 络 学 习 十 
分 接近 。 在 Grossberg 网 络 中 ,输入 模式 在 第 一 层 会 被 规格 化 ， 因 此 所 有 的 原型 模式 都 有 相 
等 的 长 度 。 在 ART1 网 络 的 第 一 层 中 并 没有 规格 化 过 程 。 因 此 当 某 个 原型 模式 是 另 一 个 原型 
模式 的 子 集 时 就 会 出 现 问题 。 例 如 ， 假 设 LI- L2 连接 矩阵 为 








1 1 0 
we ro] (16.50) 
那么 其 原型 模式 为 
1 ] 
or 且 | (16.51) 
0 ] 
因为 ，jw! “中 有 1 的 地 方 -w' “中 也 有 1， 我 们 就 认为 ,w ow PE. 
如 果 第 一 层 的 输出 为 
1 
a’ = j (16.52) 
0 





那么 第 二 层 的 输入 为 
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l 
w[i a -E 46.59 
1 1 1 
0 
这 时 ， 两 个 原型 向 量 都 有 与 a 相同 的 内 积 ， 即 使 第 一 个 原型 与 a 相等 而 第 二 个 不 等 。 
这 就 叫做 “ 子 集 / 超 集 二 难 问 题 ”。 
子 集 / 超 集 二 难 问题 的 一 个 解决 办 法 是 对 原型 模式 进行 规格 化 。 即 是 说 ， 当 一 个 原型 模 
式 具 有 很 大 数量 的 非 零 项 时 ， 每 个 项 的 量 值 应 该 被 减 小 。 比 如 说 ， 仍 用 上 面 遇 到 的 问题 ， 我 
们 可 以 将 L1- L2 矩阵 改变 如 下 : 























1 | 
2 2 0 
wi? = (16.54) 
1 1 1 l 
3 3 3 
则 第 二 层 的 输入 将 是 
全 7 0 ] 1 
Wi'*al = 1|= (16.55) 
|1 1 = | 2 
3 3 3JL0 3 


现在 我 们 得 到 结论 : 第 一 个 原型 与 a 有 较 大 的 内 积 。 第 二 层 的 第 一 个 神经 元 将 被 激活 。 
在 第 15 章 的 Grossberg 网 络 中 我 们 利用 在 第 一 层 里 规格 化 输入 模式 得 到 规格 化 的 原型 模 
A- Æ ARTI WF, AH L1 ~ L2 学 习 规 则 中 的 “加 强 中 心 / 拙 制 周围 ”的 竞争 来 规格 化 原 
型 模式 。 
2. FIRM 
W “的 学 习 规 则 是 
dew (e)) = at(t)[i* b - ,w''?( 2) ¢l* Wla! (t) 


d 
— {w(t)+- bi[- Wla'(t)] (16.56) 
其 中 
] 0 1 0 … 0 0 1 … 1 
pall-o= wje w= 2 T 
1 0 0 0 … 1 1 1 … 0 
(16.57) 


这 是 一 个 instar 学 习 规则 的 改进 型 。 当 第 二 层 的 神经 元 ORR, WPR i Ow 在 
al 的 方向 移动 。 方 程 (16.56) 与 标准 的 instar 学 习 过 程 的 区 别 是 ,w 的 元 素 参 与 竞争 ， 因 此 
被 规格 化 。 在 方程 (16.56) 右 边 的 括号 里 ,我们 看 到 了 一 个 并 联 模型 的 形式 ， 它 具有 来 自 al 
的 加 强 中 心 /抑制 周围 的 输入 连接 。 激 励 偏 置 值 是 +b = 1( 一 个 全 为 1 的 向 量 ) ， 而 抑制 偏 置 
值 是 -b=0， 它 们 保证 了 ,wi*? 的 元 素 在 0 与 1 之 间 。( 回 忆 我 们 在 15 章 对 并 联 模型 的 讨论 。) 

快速 学 习 “为 证 实 方程 (16.56) 产 生 了 规格 化 的 原型 模式 。 我 们 来 考察 一 下 其 稳 态 运算 。 
为 了 分 析 ， 我 们 假定 第 一 层 和 第 二 层 的 输出 在 权 值 到 达 稳 定 状态 前 保持 恒定 不 变 。 这 被 称 为 
快速 学 习 。 
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22 
ILD aaa) (1 = WUDA - wO Dako] (16.58) 





dt 
若 假 设 在 第 二 层 (a?(41) = 1) 神 经 元 是 活跃 的 ， 并 且 在 方程 (16.58) 中 置 导 数 等 于 0， 则 有 
0 = [0 - w!2)¢a! - wi? Nal] (16.59) 


ERE w!'? 的 稳定 状态 值 ， 我 们 考虑 两 种 情况 。 第 一 ， 假 设 a! = !。 于 是 有 
0= (1- wte- wta -1)=- (c+lal -Dwl?+t (16.60) 
或 者 


8 
1:2 - 


2 


D 








(注意 ， 由 于 a 是 一 个 二 值 向 量 , HAD a= lal 
另 一 种 情况 ， 若 ol = 0， 则 等 式 (16.59) 简 化 为 








0 =- wta (16.62) 
或 
wit = 0 (16.63) 
归纳 等 式 (16.61) 和 (16.63) 得 
| 
ee (16.64) 


t+lal -1 
其 中 <> 1， 以 保证 分 母 不 等 于 0。 

这 样 ， 原 型 模式 会 是 经 过 规格 化 的 ， 这 就 解决 了 子 集 / 超 集 二 难 问题 。( 这 里 的 “规格 
化 ”， 并 不 意味 着 所 有 的 原型 向 量 都 具有 单位 欧 几 里 德 距离 长 度 ， 而 只 是 简单 地 指 W “含有 
较 多 非 零 元 素 的 各 行将 具有 较 小 的 量 值 。 在 本 例 中 ， 含 有 较 多 非 零 元 素 的 同 量 实际 上 可 以 比 
含有 较 少 非 零 元 素 的 向 量具 有 更 短 的 长 度 。) 


16.2.6 学 习 规 则 : L2 -Li 


在 ARTI 体系 结构 中 ，L2 - L1 连接 W! ?是 用 outstar 规则 训练 的 。L2 - LI GR BEA 
忆 相 应 的 原型 模式 (期 望 值 )， 以 便 它 可 以 在 第 一 层 中 与 输入 模式 相 比 较 或 结合 。 当 期 望 值 与 
输入 模式 不 匹配 时 ， 一 个 重 置信 号 传 到 第 二 层 ， 于 是 一 个 新 的 原型 模式 将 被 选中 (正如 我 们 
前 面 几 节 里 讨论 的 那样 )。 
WI12 的 学 习 规则 是 一 个 典型 的 outstar 方程 : 
diw?! 
= a(t- w(t) +a'(t)] (16.65) 
t 
因此 ， 如 果 第 二 层 中 神经 元 / RR TÆR), MAW HS j 列 被 移 向 a 模式 。 
为 了 说 明 这 一 点 ， 我 们 来 考查 方程 (16.65) 的 稳定 状态 运算 。 
分 析 中 我 们 假设 采用 快速 学 习 方案 ， 即 第 一 层 和 第 二 层 的 输出 在 权 值 达 到 稳定 状态 之 前 
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保持 恒定 不 变 。 假 设 第 二 层 神经 元 ) 是 活路 的 ， 故 a? = 1。 置 等 式 (16.65) 中 导数 为 0， 则 有 L620 
O=-wilsa 或 w ”=a (16.66) 
因此 WKE j 列 收敛 于 第 一 层 的 输出 al。 回 忆 等 式 (16.20) 和 等 式 (16.21)， 我 们 知 
道 al 是 输入 模式 与 相应 的 原型 模式 的 结合 。 因 此 ， 原 型 模式 被 修改 为 结合 当前 的 输入 模式 
(如 果 存 在 足够 密切 的 匹配 )。 
始终 牢记 W A W2: 是 同时 更 新 的 。 当 第 二 层 的 神经 元 j 是 活路 的， 并且 在 期 望 值 与 
输入 模式 之 间 存 在 着 充分 的 匹配 (这 表明 形成 了 谐振 条 件 ) 时 ，W 的 第 7 TS Wf 
即 被 调整 。 在 快速 学 习 中 ，W2:1 的 第 列 设 设 成 a ， 而 Wi 的 第 j 行 被 设 成 a 的 规格 化 版 
本 。 
16.2.7 ART1 算法 小 结 


至 此 我 们 分 析 了 ARTI 体系 结构 的 每 个 子 系统 。 如 果 总 结 一 下 关键 的 稳定 状态 运算 并 把 
它们 组 织 成 一 个 算法 ， 我 们 就 可 以 一 览 ARTI 的 所 有 运算 。 

1. 初始 化 

ARTI 算法 从 权 值 矩阵 WE2 和 W2:1 的 初始 化 开始 。 和 矩阵 WP 初始 化 为 全 1。 这 样 ， 第 二 
层 中 的 一 个 新 神经 元 首次 赢得 了 竞争 ， 谐 振 就 会 发 生 。 事 实 上 ，a =p 门 Ww = p， 因 此 得 到 
la|? pl =1>0. RERE W25 中 的 任 一 未 经 训练 的 列 都 是 一 个 有 效 的 空白 记录 从 而 可 
以 和 任何 输入 模式 发 生 匹 配 。 

既然 矩阵 W32 的 每 一 行 都 应 该 是 W2:! 中 各 列 的 规格 化 版 本 ， 那 么 矩阵 W “的 每 个 元 素 
都 被 初始 化 为 (t+ S'-1) © 

2. 算法 

初始 化 后 ，ART1 算法 执行 如 下 : 

1) 首先 ， 我 们 向 网 络 提 交 一 个 输入 模式 。 因 为 第 二 层 被 初始 化 为 不 活跃 的 ( 即 每 个 a; = 

0)， 故 第 一 层 的 输出 为 (等 式 (16.20)) 
a =p (16.67) [16-21 


2) 其 次 ， 我 们 计算 第 二 层 的 输入 
Wl!’*al (16.68) 
并 且 用 最 大 的 输入 (等 式 (16.37)) 激 活 第 二 层 神 经 元 : 
I 全 42 (( wl?) Ta! = max (w?) a ]) 
‘lo, 其 他 
在 平局 的 情况 下 ， 具 有 最 小 下 标的 神经 元 被 宣布 为 获胜 神经 元 。 
3) 然后 我 们 计算 L2 - L1 期 望 值 (假定 第 二 层 中 神经 元 j 被 激活 ): 
Wia = (16.70) 
4) 现在 第 二 层 已 被 激活 ， 我 们 调整 第 一 层 的 输出 使 它 包含 L2 - L1 期 望 值 ( 等 式 
(16.21)): 


(16.69) 


a! = p N w (16.71) 
5) 然后 ， 由 调整 子 系统 判定 期 望 值 与 输入 模式 (等 式 (16.49)) 的 匹配 程度 : 
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11 2 2 
0 = i 如 果 [|a'| /pl < po] TEN 
0, 其 他 
6) Gaal, Wa =0， 抑 制 它 直 到 发 生 足 够 的 匹配 (谐振 )， 返 回 第 1# Aa =0， 
继续 第 7 步 。 
7) 谐振 发 生 。 更 新 Wi' “的 第 j 行 (等 式 (16.61)): 
| Ca 
Ww = o a (16.73) 
C+ lat- 1 
8) 更 新 WORS j 列 (等 式 (16.61)): 
Ww =a (16.74) 
9) 撤消 输入 模式 ， 恢 复 第 二 层 中 所 有 抑制 的 神经 元 ， 然 后 返回 第 1 步 接收 新 的 输入 模 


输入 模式 继续 被 应 用 到 网 络 中 直到 所 有 权 值 稳定 (不 再 改变 )。Carpenter 和 Grossberg 已 
证 明 [CaGr87a] ART] 算法 对 任何 一 组 的 输入 模式 都 能 形成 稳定 的 聚 类 ， 
ART1 运算 法 则 的 详细 例子 参见 例题 P16.5，P16.6 和 P16.7, 


试验 ART1 算法 请 用 Neural Network Design Demonstration ARTT (nnd16al ) 。 








16.2.8 其 他 ART 体系 结构 


ART 网 络 仅 仅 只 是 自 适应 谐振 理论 的 一 个 例子 。Carpenter 和 Grossberg 以 及 他 们 研究 
小 组 的 其 他 人 提出 了 这 一 主题 的 许多 变型 。 

ARTI 网 络 的 一 个 不 足 是 它 只 适用 于 二 值 输入 模式 。Carpenter 和 Grossberg 提出 了 
ART1 的 一 种 变型 ， 叫 做 ART2， 可 用 来 处 理 二 值 或 模拟 的 输入 模式 [ CaGr87b]。 除 第 一 层 
外 ART2 的 基本 结构 与 ART1 非常 相似 。ART2 中 第 一 层 被 几 个 子 层 的 代替 。 这 些 子 层 是 必 
需 的 ， 因 为 模拟 向 量 ， 不 像 二 值 向 量 ， 可 以 彼此 任意 地 靠近 。 子 层 规 格 化 过 程 与 清除 响声 的 
工作 相 结 合 ， 同 时 还 执行 调整 子 系统 所 需要 的 输入 向 量 与 期 望 值 的 比较 工作 。 

Carpenter 和 Grossberg 后 来 提出 了 ART3 网 络 [ CaGr90]， 其 中 介绍 了 一 种 比 ART 所 要 
求 的 重 置 机 构 的 更 为 复杂 的 生物 学 模型 。 直 到 现在 ， 这 种 网 络 尚未 被 广泛 地 应 用 。1991 年 ， 
Carpenter, Grossberg 和 Reynolds 介绍 了 ARTMAP 网 络 [ CaGrRe91 |]。 与 以 前 的 上 所 有 ART 网 
络 相 比 ， 它 是 一 个 有 监督 的 网 络 。ARTMAP 体系 结构 由 两 个 ART 模块 构成 ， 两 模块 由 一 个 
称 为 “中 间 ART” 的 联想 存储 器 相连 接 。 一 个 ART 模块 用 来 接受 输入 同 量 ， 而 另 一 个 模块 用 
来 接受 预定 的 输出 向 量 。 这 种 网 络 学 习 的 是 ， 每 当 有 输入 向 量 的 时 候 它 能 预测 正确 的 输出 。 

近来 ，Carpenter，Grossberg，Markuzon，Reynolds 和 Rosen 又 修改 了 ARTMAP 的 体系 
结构 ， 结 合 进 了 模糊 逻辑 。 其 结果 称 为 “模糊 ARTMAP”[CaGrMa92]。 它 看 上 去 性 能 有 所 所 

1623) 高 ， 尤 其 是 对 含 噪音 的 输入 模式 。 

所 有 这 些 ART 体系 结构 都 结合 了 本 章 讨论 的 主要 模块 ， 包 括 : 

e L1 — L2 instar 模式 识别 

e L2- L1 outstar 模式 回忆 
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。 用 于 对 比 增强 (竞争 ) 的 第 二 层 
。 用 于 输入 与 期 望 值 比较 的 第 一 层 
。 当 模式 不 匹配 时 用 于 重 置 的 调整 子 系统 16-24 


16.3 小 结 


基本 的 ART 体系 结构 





ART1 网 络 (二 值 模式 ) 





ARTI 第 一 层 
输入 第 1 层 
+ + 期 望 值 
tp! + Sly 5 
re e 
p r e wi 
5! DO eS Sl 
h | 
-bi 
: 
' 增益 控制 Sl x §2 


e dni/dt = -n! + (tb! -~ n!) {p + W242} - (n! + ob) [LW Ja? 
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第 一 层 方 程 
e dn (0 nt)+b -ni ip + Wla(i)) - (n! (t) + > bU Wat) 


稳定 状态 运算 

若 第 二 层 不 活跃 ( 即 每 个 a? = 0) al =p. 

若 第 二 层 活跃 ( 即 有 一 个 a? =1), a! = pw"). 
ARTI 第 二 层 





抑制 周转 Axs 


e dn2/df = - n? + (tb? - n?) { (7 W2}f2(n2) + W1281] 
- (n? + “b2) [W2] f2(n2) 


第 二 层 方程 
e dnt =- p(t) + (+ b? 7 2¢4))i [+ W? | f? (nm(i)) 4 Wi 2g! | 

~ (m(t) + BDL Wf (nr (2)) 

稳定 状态 运算 
16-26| 2 _ | ane ((,w''*) "a = max[ (jw )"a ]) 
“lo, 其 他 
调整 子 系统 
WERT RAZA FE 
Amt) LL nOi) 4 (+ 89 = n%1))1* Wpl = (no(1) +> 0°) 1” Woa! 

Hh+wWeal[g a … al], "Welp 8 = Bl, *b°= 7 bP =1. 
稳定 状态 运算 

0 = s 如 果 [| al ipl < o 


0, 其 他 


Ble ERRE 





E€ dn/dt = -m+ (tbo ~ n°) [*W°]p - (n° + -b0) [-Wo] a! 


L1-L2 学 习 规 则 


363 


LWW] L ac {+ bw err Wali) - Liw?) +- b}[- Wha! (r) 


dt 
0 1 0 | 
wo 
i 0 0 0 | 1 1 
稳定 状态 运算 (快速 学 习 ) 
:WwW 5a (第 二 层 神经 元 MR) 


te fall? 1 
L2-L1 学习 规则 


*1 
= at(t)l-wy'(t)+a'(t)] 

稳定 状态 运算 (快速 学 习 ) 

w! = al( 第 二 层 神 经 元 j 活跃 ) 
ART! 算法 (快速 学 习 ) 小 结 
初始 化 
矩阵 WP:! 初 始 化 为 全 1。 
和 矩阵 W!2 的 每 个 元 素 初 始 化 为 W(t%+ 5 -1)。 
算法 
1) 首先 ， 向 网 络 提交 一 个 输入 模式 。 既 然 第 二 层 初 始 化 为 不 活路 ( 即 每 个 a? = 0) ， 则 第 

一 层 输出 为 
a =p 

2) 其 次 ， 计 算 第 二 层 的 输入 iii 


并 且 用 输 人 中 的 最 大 值 激活 第 二 层 的 神经 元 ; 
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-I [i UR(W?) a = max[ (pw?) "a ]) 
= lo, 其 他 
在 平局 的 情形 下 ， 具 有 最 小 下 标的 神经 元 被 宣布 为 优胜 者 。 
3) 计算 L2 - Ll BE PRAM A TR) 


16-28! Ww?! 2 = wi! 
4) 现在 第 二 层 是 活跃 的 ， 调 整 第 一 层 的 输出 以 包含 L2 - Ll 期 望 值 : 
q! = p 站 we 


5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 ， 
pa [h maa ol < 
0, 其 他 
6) 若 co =1， 则 令 oj =0， 抑 制 它 直 到 适当 的 匹配 发 生 ( 谐 振 )， 返 回 第 1 步 。 若 ac" = 0， 
继续 第 7 步 。 

7) 谐振 发 生 ， 因 此 更 新 W “的 第 j íT: 
© ta fal]? -1 

8) FLEE WH j3: 

wr! = al 

9) 撤消 输入 模式 ， 恢 复 第 二 层 中 所 有 被 抑制 的 神经 元 ， 然 后 返回 第 1 步 ， 接 受 新 的 输 

16-29] 人 模式 。 


16.4 例题 


P16.1 考虑 ART] 网 络 的 第 一 层 具 有 如 下 参数 : 
€ = 0.01,* bt = pa b+ =3 
假设 第 二 层 有 两 个 神经 元 ,输入 册 量 中 有 两 个 元 素 ， 并 有 如 下 的 权 值 矩阵 和 输入 : 
we 
再 假设 第 二 层 神 经 元 1 aK. 
(i) 找 出 且 描 绘 啊 应 nn。 
(ii) 检查 (i) 的 答案 是 否 满 足 稳 定 状 态 运 算 方程 (16.21) 的 预测 。 
解 
(i) 因为 第 二 层 活 跃 ， 且 第 二 层 神经 元 1 赢得 了 竞争 ， 所 以 第 一 层 的 运算 方程 为 
] 
(0.01) Z = - ni + (2- ni)ip, + wiil- (ni +3) 
san Oen) lia - (nj +3) =-3n;-1 


dn} l 
(0.01) 7# = - ny +(2- n3)i p, + wei} - (nd + 3) 


Sony Oana) =a +3) Sean, 41 


化 简 为 
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dn} 





q7 =- 300n} - 100 
da _ 400n} + 100 
dt ee t 
若 假设 两 个 神经 元 的 初始 条 件 都 为 0， 则 结果 为 
ni(t) = 一 all "F ai 
n4(t) = 40 "Y 
它们 的 图 形 见 图 16-9, 
| 图 16-9 第 一 层 的 响应 
(ii) WEB, n (OKAT, m n3(z) 收 全 于 正 值 。 因 此 wil(i) 收 第 于 0，a2(i) 收 
NF 1( 回 忆 第 一 层 的 转移 函数 为 hardlim + )。 这 与 我 们 的 稳 态 分 析 一 致 ( 见 等 式 (16.21))， 
这 是 因为 
pN m=| | ale he sa (16.75) 
i l 1 
P16.2 考虑 ART1 网 络 的 第 二 层 具 有 如 下 参数 ， 
ee 2 | i -|?] we fT a 5] 
0 | | ,w = (wl:2)T ae ó 
H 
10(n7), n>0 
fn) = 0 n <0 
假设 第 一 层 的 输出 为 


| 


除了 偏 置 值 不 同 以 外 ， 它 和 正文 中 第 二 层 的 例子 是 一 样 的 。 
(i) 写 出 第 二 层 的 运算 方程 ， 并 且 模 仿 描绘 出 其 响应 图 。 解 释 偶 置信 增加 带 来 的 影 啊 。 
(ii) 证 实 第 二 层 稳定 状态 方程 的 正确 性 。 
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角 
(i) 该 层 的 运算 方程 为 
2 
(0.1) PEP <8 O) + (2 = BC) PCA) + Gwe?) Ta 


~- (ni(t) +2) f?(n3(t)) 
= h(t) + (2 - nhai (n5(2)) + Gw?) a) 


— (ni(t) +2)? (nilt)) 
图 16-10 展示 了 当 输 入 向 量 为 a = [1 0] 时 第 二 层 的 响应 。W “的 第 二 行 与 a 作用 有 比 第 
一 行 更 大 的 内 积 ， 因 此 第 二 个 神经 元 赢得 了 竞争 。 





oe aan, ra 
| 1:2. T 1 na (t) 


(w )a 
L/ 
p 站 
1:2. T | VY 
(jw) a | 
2 
n, (t) 
4 0,08 0.1 0.18 0.2 
f 


图 16-10 第 二 层 的 响应 


如 果 我 们 将 图 16-10 与 图 16-6 作 个 比较 ， 可 以 看 到 候 置 值 有 三 个 影响 。 第 一 ， 啊 应 速 
度 增 加 了 ; 神经 元 的 输出 更 快 地 转向 它们 的 稳定 状态 值 。 第 二 ， 响 应 的 范围 从 [ -1，1j 增 
加 到 [ - 2，2]。( 回 忆 第 15 章 并 联 模 型 中 上 限 是 激励 偏 置 值 + 8， 而 下 限 是 抑制 偏 置 值 - 5。) 


第 三 ， 神 经 元 的 响应 更 加 接近 上 限 或 下 限 。 
(ii) 在 稳定 状态 ，n?(t) 有 一 个 正 值 ，n2(1) 有 一 个 负 值 。 第 二 层 的 稳定 状态 输出 会 是 ， 


1 
BH 
这 与 第 二 层 要 求 的 稳 态 啊 应 特征 一 致 ， 
人 ™4((,w''?)7al = max[(;w'*) a ]) AY 
“lo, 其 他 
P16.3 考虑 ARTI 网 络 具 有 如 下 参数 的 调整 子 系统 : 
e=0.1, a=0.5, B= 2(0=0.25), +P =-b =0.5 


调整 整 子 系统 的 输入 为 
l l 
1 | a = H 
1 1 


(i) 找 出 并 描绘 调整 子 系统 的 响应 n (4)。 


p = 
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(ii) 证 实 其 满足 稳定 状态 条 件 。 


解 
(i) 调 整 子 系统 的 运算 方程 为 
0 
(0.1) det <- no) + (0.5 = n%1))10.5(p, + pz + pa)! 
~ (n°(t) +0.5){2Cal + ad + a3)| 16-33! 
或 者 
dnt = - 65n°(t) - 12.5 

故 其 啊 应 为 


n°(t) =- 0.1923[1 -~ e7%*] 
该 啊 应 如 图 16-11 AT AR o 此 例 中 ， 因为 n (t EMNE, al = hardlim* ¢ n°) = 0, 所 以 不 
会 有 重 置 信和 号 发 向 第 二 层 。 


图 16-11 调整 子 系统 的 啊 应 
(ii) 调整 子 系统 的 稳定 状态 运算 可 以 总 结 如 下 : 
aa fE SUPA can 
lo- 


0， 其 他 
1 
1 
] 
故 a? =0, 与 (j) 的 结果 一 致 。 
P16.4 说 明 L2 - LI 连接 的 学 习 方程 与 第 13 章 所 述 outstar 方程 等 价 。 
L2- Ll 学习 规则 为 (等 式 (16.65)) 


Wwe! | 
dw (2) = a wt) +a'(t)] 
dt 


在 本 题 中 


2 2 


a= pee Hs 


0 = 3 


1 


A 



































7 FA 


ww ai bbt. com 7 O00000 


368 PPLE [i] $3 1E Ff 


diwii(i)] w(t + At) - w(t) 


dt At 
TEAS ROBT AUT, WSS (16.65) RSA 
W(t + At) = wW (t) + (Atdas(t)i- Ww (1)+a(t)l 
这 就 是 第 13 章 的 outstar 规则 (等 式 (13.51))。 这 里 ，L2 - Ll 连接 的 输入 是 af(t), L2- L1 
连接 的 输出 是 a 。 
P16.5 用 下 面 的 输入 向 量 训练 ARTI A: 








利用 参数 C=2，p = 0.4， 选 择 S* = 3(3 个 分 类 )。 
解 
我 们 的 初始 权 值 将 是 
| 1 1 1 0.5 0.5 0.5 
we} i 1 i wo. 0.5 os 
1 1 1 
现在 来 讨论 算法 。 
1) 计算 第 一 层 的 啊 应 : 


16-35 2) 然后 计算 第 二 层 的 输入 : | 
0.5 0.5 Q.5 | 0 0.5 
0.5 0.5 0.5 i =] 0.5 
0.5 0.5 0.5 JLO 0.5 
由 于 所 有 神经 元 都 有 相同 的 输入 ， 选 取 第 一 个 神经 元 作为 优胜 者 。( 在 平局 的 情况 
下 ， 选 取 下 标 最 小 的 神经 元 作为 优胜 者 。) 
1 


Wl!:2al z 

















a = 








0 

0 
3) 现在 计算 L2- L1 期望值: 

1 1 1 

Welg = f 1 1 

111 

4) 调整 第 一 层 输出 以 包含 L2- L1 期 望 值 ; 


Ja 
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5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
|al /| p, | = + > o = 0.4, Al a = 0( 不 重 置 ) 


6 ) 既然 a?=0, 继续 第 7 步 。 
7) 谐振 发 生 ， 因 而 更 新 W “的 第 1 行 : 


有 3a! 0 | 0 1 C 
WwW =la S 1i, W*=/0.5 0.5 0.5 


0 0.5 0.5 0.5 
8) 更 新 W* 的 第 1 列 : 16-36 


0 0 1 1 
Ww = q! = Ww! = 1 1 1 
U 1 1 


] 
0 
9) 撤消 p,， 返 回 第 1 步 ， 接 收 输 入 模式 po 
1) 计算 新 的 第 一 层 啊 应 (第 二 层 不 活 暑 ): 


l 
a = P: = o 
0 
2) 然后 ， 计 算 第 二 层 的 输入 | 
0 1 0 ] 0 
Wta! = es 0.5 2s [a 四 
0.5 0.5 0.5 0 0.5 
由 于 神经 元 2 与 神经 元 3 有 相同 输入 ， 取 神经 元 2 作为 优胜 者 : 















































0 
a = | 1 
0 
3) 现在 计算 12-11 期望值 
0 1 11r0 ] 
we 1 1 f =w! = l 
0 1 ıjLo 1 
4) 调整 第 一 层 输出 以 包含 L2 - LI 期 望 值 : 
1 l 1 
aa=pnwe=-|olnli | 
0 1 0 
5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
Ja'|’/|p,|? = + > o = 0.4, 因 此 a = 0( 不 重 置 )。 








6) 既然 a? =0, BABA. 
7) 谐振 发 生 ， 因 而 更 新 W RRIT: 
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| 1 0 1 0 
Wl” = alo =a! =| 0 ; wi? = l 0 0 
a ae 0 0.5 0.5 0.5 


8) 更 新 WwW As Fl: 


ws’! = a! 一 








0 


9) 撤消 p,， 返 回 第 1 步 ， 接 收 输入 模式 p,。 
1) 计算 第 一 层 对 新 输入 模式 的 响应 : 


2) 然后 ， 计 算 第 二 层 的 输入 : 

1 
i 0 0 L = a 
0.5 0.5 OS ILO ] 


由 于 所 有 神经 元 都 有 相同 输入 ， 选 取 神 经 元 1 作为 优胜 者 : 


wi: l ua 

















3) 现在 计算 L2- L1 期 望 值 : 








0 1 1]/1 0 
we | 0 || = wr! = | 
0 0 1JL0 0 
16-38] 4) 调整 第 一 层 输出 以 包含 L2 - L1 期 望 值 ; 
] 0 0 
qi = p, N wi? Z iS | etd 
0 0 0 




















5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 之 间 的 匹配 程度 ， 
Ja'|*/|p,|? = 4 > p = 0.4, 因 此 ao = 0( 不 重 置 ) 

6) 既然 a? =0， 继 续 第 7 步 。 

7) 谐振 发 生 ， 因 而 更 新 W!'? 的 第 1 行 : 


0 0 J 0 
IW ”= TT =a =/1|/, W? =| 1 0 0 
Pen = 0 0.5 0.5 0.5 


8) 更 新 WwW NAF: 
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1 1 
0 1 
0 0 0 1 

这 时 训练 就 结束 了 。 即 使 你 再 训练 这 三 个 模式 中 的 任 一 个 ， 权 值 都 不 会 改变 。 这 些 模 式 
已 被 成 功 的 聚 类 。 这 种 结果 形式 (稳定 的 学 习 过 程 ) 对 于 ARTL 算法 是 必然 的 ， 事实 上 , 化 
被 证 明 总 能 形成 稳定 的 聚 类 。 

P16.6 重复 例题 P16.5 ， 但 是 改变 和 警戒 参数 为 o =0.6。 

解 

训练 过 程 与 例题 P16.5 完全 一 样 ， 直 到 出 现 模式 p;。 让 我 们 从 这 里 继续 算法 。 

1) 计算 第 一 层 的 响应 : 


0 
wei =] 1 




















2) 然后 ， 计 算 第 二 层 的 输入 : 
1 


] 0 
l 0 0 l l 
0.5 0.5 0.5JLO l 


既然 所 有 的 神经 元 都 有 相同 的 输入 ， 选 取 神 经 元 1 EES : 


w!'2q! a 



































a =| 0 
0 
3) 现在 计算 L2- L1 期 望 值 : 
0 1 l 0 
we- 1 || 0 | 
0 0 1J10 0 
4) 调整 第 一 层 的 输出 以 包括 L2 - L 期 望 值 : 
| 0 0 
a=plw =/1// 1 a 
0 0 0 














5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 : 
ms = 2 < o = 0.6, 因 而 a? = 1( 重 时 


6) 因为 0=1, 令 a? =0， 抑制 它 直到 出 现 足 够 的 匹配 (谐振 ) ， 然 后 返回 第 1 步 。 
1) 重新 计算 第 一 层 的 响应 (第 二 层 不 活跃 ): 


: 16-40 


2) 其 次 ， 计 算 第 二 层 的 输入 : 


0 ] 0 1 ] 
Wi:al =| 1 0 0 1]|1=|1] 
0.5 0.5 0.5JL0 1 
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既然 神经 元 1 BM Hl, VERA IL 2 作为 优胜 者 ， 














0 
a =| 1 
0 
3) 现在 ， 计 算 L2 - L1 期 望 值 : 
0 1 1|[0 1 
we 0 1 | = w! = J 
| 0 0 1JLO 0 
4) 调整 第 一 层 输出 以 包含 L2 - L1 期 望 值 : 
] ] ] 
a = p Nw =| 1}; NIO] =| 0 
0 0 0 




















5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 之 间 的 匹配 程度 : 


Ja'|’/Ipl? = 4 < o= 0.6, ET a? = 1( 重 置 ) 


6) 因为 a =1, $ a2 =0， 抑制 它 直 到 出 现 足够 的 匹配 (谐振 )， 然 后 返回 第 1 步 。 
1) 重新 计算 第 一 层 的 啊 应 : 








2) Hk, TEASE BA 


1 


l 
=u l 
0.5 0:5 0.5 1 











0 1 0 
Wwi'2qi =| 1 0 0 


3) 现在 计算 L2 - L1 HAE: 


Wig = 








0 1 1 
101 
0 0 1 
4) 调整 第 一 层 输出 以 包含 L2 - LI 期 

















由 于 神经 元 | 和 神经 元 BANH, HEMET 3 为 优胜 者 
下 
0|=wf =/ 1 
] 1 
望 值 : / 

l l 

0 i 0 

5) 然后 ， 调 整 子 系统 判定 期 望 值 与 输入 模式 的 匹配 程度 ; 

ja'|?/|p,|? = > > p = 0.6, 因 而 ao = ORE) 
6) 由 于 a? = 0， 继 续 第 7 步 。 
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7) 谐振 发 生 ， 因 而 更 新 W'“ 的 第 3 行 


2 
| 3 0 L 0 
wW? 7 7 - we 2 wi:2 - ] U 0 
2+ | al =i 4 3 2 2 
3 3* 
0 l 
8) 更 新 WAS 3y: 
] 0 i 1 
wi) =a =| | wW! -|1 0 1 
0 0 0 0 
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变 - (对 网 络 应 用 每 一 个 输入 模式 自己 证 明 这 点 。) 这 些 模式 已 被 成 功 地 聚 类 。 

注意 在 例题 P16.5 中 ， 警 戒 值 o = 0.4， 所 以 这 些 模式 被 聚 类 成 两 类 。 在 本 题 中 ， 警 戒 
值 o=0.6， 这 些 模 式 被 聚 类 成 三 类 。 人 警戒 值 越 接近 1 ， 就 会 聚 类 成 越 多 的 分 类 。 这 是 因为 输 
人 模式 必须 很 接近 原型 ， 以 使 其 被 相应 的 原型 结合 。 当 警戒 值 接近 0 时 ， 许 多 不 同 的 输入 模 
ASKART Ae, BRAS ToBI 

P16.7 用 下 面 的 输入 向 量 训练 ART1 网 络 (参见 [CaGr87a ] ) : 





图 16-12 


提交 向 量 的 顺序 为 p -p-p -p -p (RER, p 在 每 一 个 轮回 中 被 提交 了 两 次 )。 使 用 

参数 <=2，p = 0.6， 选 择 S = 3(3 个 分 类 )。 训 练 网 络 直到 权 值 收敛 。 

FRM ARAL AURA CR. BURR RE W 是 一 个 S' x S*=25x3 NS 1 ER. We 

矩阵 WH BAITARE, RULE Sx Sl = 3 x 25 矩阵 ， 其 中 每 个 元 素 等 于 
traa (2435-1) s -y5 = 0.0769 

为 了 创建 输入 向 量 ， 我 们 要 一 行 一 行 地 扫描 每 个 模式 ， 其 中 每 个 蓝 色 方块 都 代表 1， 每 
个 白色 方块 都 代表 0。 因 为 输入 模式 是 5x5 网 格 ， 这 将 创建 25 维 的 输入 问 量 。 

我 们 现在 开始 训练 。 由 于 在 向 量 数 目 如 此 大 的 情况 下 显示 计算 的 全 过 程 并 不 实际 ， 故 我 
们 已 在 图 16-13 中 总 结 了 算法 的 结果 。 图 中 每 一 行 代表 ATR 算法 的 一 次 重复 (一 个 输入 癌 
量 的 提交 )。 每 行 中 最 左边 的 模式 是 输入 向 量 。 剩 下 的 模式 代表 W :矩阵 的 三 列 。 在 每 一 次 
重复 中 ,一 个 星 号 指出 了 谐振 点 一 一 W2'! 中 与 输入 模式 相 匹 配 的 那 一 列 。 每 举 发 生 重 置 ， 均 
被 一 个 检查 标志 ( 义 叶 ) 反 映 出 来 。 当 在 一 次 重复 中 不 只 4 一 次 重 置 发 生 ， 检 查 标 志 劳 边 的 数字 
便 记 录 了 重 置 发 生 的 次 数 。 

共有 10 次 算法 的 重复 执行 (依照 次 序 p, -p-p -p - ps 进行 了 两 个 轮回 )。 权 值 最 终 
稳定 。( 读 者 可 以 自己 提交 每 个 输入 模式 进行 检查 。) 

本 例 中 有 几 点 有 趣 的 地 方 得 注意 。 首 先 ， 注 意 在 第 4 次 重复 时 p 和 p, 都 被 咀 '! 编码 。 
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Ww?! wi" W2] wl W,2:1 w,2'! 





(a) 第 1 轮 (b) 第 2 轮 


图 16-13 本 例 的 ARTI 重复 


然而 ， 在 第 5 次 重复 时 ， 当 被 提交 后 ， 归 :1 改变 为 包含 了 p,。 这 个 新 的 we! 不 再 提供 与 
pi 和 P 的 精确 匹配 ， 正 如 我 们 在 重复 6 和 8 中 看 到 的 。 这 就 要 求 它们 接受 神经 元 3， 而 它 


在 第 一 次 轮回 中 并 未 用 到 。 
通过 修改 警戒 参数 可 以 改变 算法 的 结果 。 要 多 小 的 警戒 值 才能 使 仅 有 两 个 神经 元 的 第 二 
层 ， 能 按 要 求 对 4 个 输入 向 量 进行 编码 呢 ? RN 增加 第 4 个 


神经 元 呢 ? 
16.5 ”结束语 


竞争 性 学 习 ， 以 及 其 他 许多 类 型 的 神经 网 络 训练 算法 ， 都 遇 到 了 一 个 被 称 为 “稳定 性 /可 
塑性 二 难 问题 "的 难题 。 如 果 一 个 学 习 算法 对 新 输入 很 敏感 (可 塑性 强 )， 那 么 它 也 处 于 环 旋 
以 前 学 习 内 容 的 危险 中 (不 稳定 )。ART RE 又 保证 学 
习 的 稳定 性 。 

在 这 一 章 里 ，ART1 网 络 被 用 来 说 明 目 适 应 谐振 理 1i 人 的 主要 概念 ART] 网 络 是 建立 在 
第 15 Æ Grossberg 竟 争 网 络 基础 上 的 ， 只 有 少量 修改 。ARTI 网 络 的 主要 改进 是 "期望 值 的 
使 用 。 当 每 一 个 输入 模式 提交 给 网 络 时 ， 它 会 与 匹配 程度 最 接近 的 原型 向 量 ( 期 望 值 ) 进 行 比 
较 。 如 果 原 型 与 输入 向 量 不 足以 匹配 ， 一 个 新 的 原型 就 会 被 选中 。 用 这 种 方式 ， 前 面 学 习 的 
记忆 (原型 ) 就 不 会 被 新 的 学 习 所 破坏 。 

分 析 ART 网 络 时 一 个 应 铭记 在 心 的 重要 点 ， 是 它们 被 设计 成 似乎 是 合理 的 生物 学 上 的 
学 习 机 构 。 它 们 在 理解 人 脑 怎样 工作 方面 ， 与 今 人 鼓舞 的 实际 模式 识别 系统 非常 相近 。 基 于 
这 种 原因 ， 这 些 学 习 机 制 要 求 在 每 个 神 旨 双 元 只 使 用 本 地 信息 。 而 我 们 在 文中 讨论 的 学 习 规 
则 ， 并 非 全 部 都 是 这 样 。 

BR ART 网 络 解决 了 学 习 不 稳定 的 困难 ， 在 它 里 面 网 络 权 值 从 来 是 不 稳定 的 ， 这 是 我 
们 尚未 讨论 过 的 另外 一 种 稳定 性 问题 。 那 就 是 实现 网 络 短期 记忆 方程 的 微分 方程 的 稳定 性 。 
例如 ， 在 第 二 层 中 ， 我 们 有 一 个 具有 非 线性 反馈 的 微分 方程 组 。 我 们 能 否 做 出 关于 这 种 系统 
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的 稳定 性 的 一 般 说 明 呢 ?第 17 章 将 对 这 个 问题 进行 广泛 的 讨论 。 
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| Gros76] S. Grossberg, “Adaptive pattern classification and universal recoding: I. Parallel devel- 
opment and coding of neural feature detectors, Biological Cybernetics, vol. 23, pp. 121 - 
134, 1976. 

描述 了 一 种 在 视觉 皮层 生理 学 进展 影响 下 的 时 间 连 续 竞 争 网 络 。 这 种 网 络 结构 形 
成 了 其 他 一 些 重要 网 络 的 基础 。 

| Gros82] S. Grossberg, Studies of Mind and Brain, Boston; D. Reidel Publishing Co., 1982. 

这 本 书 收集 了 Stephen Grossberg 从 1968 年 到 1980 年 的 论文 。 其 中 有 很 多 基本 概念 
在 其 后 的 Grossberg 网 络 中 得 到 了 运用 ， 如 自 适应 谐振 理论 网 络 。 


习题 
E16.1 考虑 ART1 网 络 的 第 一 层 ，s= 0.02。 设 第 二 层 中 有 两 个 神经 元 ， 输 入 问 量 中 有 


16-46 


16-47 
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两 个 元 素 ， 并 且 有 如 下 的 权 值 矩阵 和 输入 ; 


wel] eef 


再 假设 第 二 层 神经 元 2 是 活跃 的 。 
16-48 (i) 求 出 并 描绘 al 的 响应 ， 如 果 + ob! =2 Hb =3. 

(ii) 求 出 并 描绘 响应 nm， 如 果 + bl1=4 和 且 - bi!=5。 

(iii) 求 出 并 描绘 响应 nl， 如 果 +4b!=4 且 -bi=4。 

(iv) REG) ~ (ii) 小 题 的 答案 是 理 满 足 等 式 (16.21) 预 测 的 稳 态 响应 。 解 释 所 
有 不 一 致 的 地 方 。- 

(v) 通过 写 出 模仿 ARTI 网 络 第 一 层 的 MATLAB M- 文 件 检验 (i) ~ (让 ) 小 题 的 
答案 。 利 用 例 行 程序 ode4s。 画 出 每 种 情况 的 响应 图 。 

E16.2 考虑 具有 如 下 参数 的 ARTI MARJE: 


(wi:2)7 2 2 
= 1:2 _ = 
e- 0.1 W =| Ors -|3 3 
2 1 0 


H 


设 第 一 层 的 输出 为 


| 


(i) 写 出 第 二 层 的 运算 方程 ， 模 仿 并 画 出 使 用 下 列 偏 置 值 向 量 的 啊 应 图 : 


= wel 


Gi) 重复 (i) 小 题 ， 使 用 如 下 偏 置 值 向 量 : 


wf] -¥-L) 


(iii) 重复 (让 小 题 ， 使 用 如 下 偏 置 值 回 量 : 


v] wf 


(iv) 前 面 三 小 题 的 结果 满足 等 式 (16.37) 描 述 的 稳 态 响应 吗 ? 如 果 不 满足 ， 为 什么 ? 
E16.3 考虑 ART] 网 络 具有 如 下 参数 的 调整 子 系统 : 
e=0.1 +b0-=- 久 =2? 
调整 子 系统 的 输入 为 








(i) 求 出 并 描绘 调整 子 系统 的 响应 n (t), HH a=0.5, B=4 (p=0.125). 
(ii) 求 出 并 描绘 调整 子 系统 的 响应 nlt), HF a=0.5, B=2 (p=0.25)。 


ww aibbt.com 0000060 


#16 È BELEK LH 377 


(iii) 验证 小 题 (i) 和 (让 1) 满足 稳定 状态 条 件 。 
(iv) 通过 写 出 模仿 调整 子 系统 的 MATLAB M- 文 件 检验 第 (i) ，(ii) 小 题 的 答案 。 
E16.4 为 了 得 到 LI- L2 和 1L2 -Ll 学 习 规 则 的 稳定 状态 条 件 ， 我 们 假设 输入 模式 和 神 
经 元 的 输出 在 权 值 矩 阵 收敛 前 保持 恒定 不 变 。 这 叫做 “快速 学 习 "。 说 明 这 个 快 
速 学 习 假 设 与 出 现在 第 13 章 的 instar 和 outstar 学 习 规 则 中 和 第 14 章 的 Kohonen 
竞争 性 学 习 规 则 中 把 学 习 速 度 设置 为 a= 1 是 等 价 的 。 
E16.5 用 下 面 的 输入 向 量 训练 ARTI 网 络 : 
0 1 
| 0 
Pi = 0 Mise P- = 0 
1 ] 
使 用 参数 5=2， 并 选择 S% =3(3 个 分 类 ) 。 
Ci) 利用 o=0.3 WAM UD. 
(ii) 利用 o=0.6 重 复 (i) 小 题 。 
(iii) 利用 o=0.9 重复 (ii) 小 题 。 
E16.6 当 原 型 与 输入 模式 之 间 不 存在 精确 匹配 时 ， 可 以 修改 ART! 算法 使 第 二 层 增 加 
一 个 新 的 神经 元 。 这 将 导致 在 矩阵 W!:* 中 新 增 一 行 和 在 W*'! 中 新 增 一 列 。 描 述 
此 过 程 怎样 实现 。 
E16,7 写 出 实现 ART! 算法 的 MATLAB M- 文 件 (运用 习题 E16.6 中 所 描述 的 修改 过 程 )。 
用 这 个 M- 文 件 训练 ART1 网 络 ， 并 使 用 下 面 的 输入 向 量 ( 参 见 例 题 P16.7): 


ji 
l 

P; = 0 : Py = 
0 





16-14 
以 下 面 的 次 序 提交 输入 向 量 : p-p, -p -p -p (NÆH, Pi 在 一 个 轮回 中 被 
提交 两 次 )。 使 用 参数 5=2，p = 0.9， 并 选择 S = 3(3 个 分 类 )。 训 练 网 络 直 到 权 


值 收 僵 。 将 你 的 结果 与 P16.7 比较 。 
E16.8 回忆 第 7 章 描 述 的 数字 识别 问题 。 使 用 数字 0~ 9 训练 ART1 网 络 ， 它 们 显示 如 下 : 


0722996709 


Po Pio 


图 16-15 


使 用 参数 5=2 ， 选 择 S = 5(5 个 分 类 )。 利 用 习题 E16.7 中 的 MATLAB M- 文 件 。 

(i) 训练 网 络 至 收敛 ， 使 用 p=0.3. 

(ii) 训练 网 络 至 收敛， 使 用 p=0.6。 

(iii) 训练 网 络 至 收敛 ， 使 用 p=0.9。 

(iv) 讨论 小 题 (i) ~ 站) 的 结果 。 解 释 警 戒 参 数 的 影响 。 16-51 
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17.1 目的 


递归 网 络 中 的 “ 收 钱 性 "问题 第 一 次 出 现在 第 3 BETTIE Hopfield 网 络 中 。 注 意 到 递归 网 
络 的 输出 可 能 收敛 于 一 个 稳定 点 、 发 生 振 荡 或 者 甚至 可 能 发 散 。 急 剧 下 降 过 程 和 LMS 算法 
的 “稳定 性 "已 分 别 在 第 9 章 和 第 10 章 中 进行 了 讨论 。Grossberg 的 持续 时 间 递 归 网 络 (con- 
tinuous — time recurrent network ) 的 稳定 性 问题 也 在 第 15 章 作 了 讨论 。 

这 一 章 将 对 稳定 性 作 更 为 细致 的 定义 。 我 们 的 目的 是 判断 一 组 特定 的 非 线性 方程 是 否 具 
有 一 些 其 输出 收敛 的 点 (或 轨迹 )。 为 妍 究 这 个 问题 题 ， 我 们 将 介绍 Lyapunov 的 稳定 性 定理 ， 
并 且 把 它 运 用 到 一 个 简单 却 又 具有 局 发 性 的 问题 中 。 然 后 ， 提 出 Lyapunov 理论 的 一 般 形式 : 
LaSalle 不 变性 定理 。 这 将 为 第 18 章 打下 基础 ， 那 里 LaSalle 定理 被 用 来 证 明 Hopfield 网 络 的 


7-1} 稳定 性 。 


ey: 


17.2 理论 和 实例 


17.2.1 递归 网 络 


本 书 最 初 讨论 递归 神经 网 络 ， 是 在 第 3 章 讨论 Hamming 以 及 Hopfield MN, ENA 
有 从 输出 到 输入 的 反馈 连接 。 第 15 章 和 第 16 章 的 Grossberg 网 络 也 含有 递归 连接 。 由 于 网 
归 网 络 能 够 识别 和 回忆 时 序 模式 以 及 空间 模式 ， 因 而 它 比 前 馈 网 络 更 具有 潜在 的 能 力 。 然 
而 ， 这 些 递归 网 络 的 行为 比 前 馈 网 络 更 为 复杂 。 

对 前 馈 网 络 来 说 ， 其 输出 是 恒定 的 (对 一 个 固定 的 输入 )， 并 且 仅 是 网 络 输入 的 函数 。 但 
是 ， 对 递归 网 络 来 说 ， 网 络 的 输出 是 时 间 的 一 个 函数 。 对 一 个 给 定 的 输 人 和 一 个 给 定 的 初始 
网 络 输出 ， 网 络 的 响应 可 能 收敛 到 一 个 稳定 的 输出 。 然 而 ， 它 也 可 能 振 蔓 ， 无 限 地 增 大 ， 残 
者 遵循 一 种 混乱 的 模式 。 在 这 一 章 的 剩 下 部 分 ， 我 们 旨 在 分 析 一 般 的 非 线性 递归 网 络 ， 用 以 
确定 它们 的 长 期 行为 。 

考虑 由 如 下 形式 的 非 线性 微分 方程 组 描述 的 递归 网 络 ; 


Salt) = gal), plt), t) (17.1) 
这 里 p(1) 是 网 络 输入 ，a(1) 是 网 络 输出 ( 见 图 17-1)。 

我 们 希望 知道 这 些 系 统 在 稳定 状态 下 如 何 运作 。 我 们 最 感 兴趣 的 是 网 络 收敛 到 一 个 恒定 
输出 的 那些 情况 ， 这 个 恒定 输出 即 为 稳定 平衡 点 。 一 个 非 线性 系统 可 能 有 许多 稳定 点 。 对 于 
某 些 神经 网 络 ， 这 些 稳定 点 代表 存储 的 原型 模式 。 可 能 的 话 ， 我 们 想 知道 这 些 稳定 点 在 哪 
里 ， 以 及 哪些 初始 条 件 a(0) 会 敛 到 一 个 给 定 的 稳定 点 。( 即 什么 是 一 个 给 定 稳定 点 的 吸引 


K?) 
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非 线 性 递归 网 络 





da(D/dt = g(a(t), PC 


图 17-1 非 线性 持续 时 间 递 归 网 络 


17.2.2 稳定 性 概念 


开始 讨论 前 ， 我 们 用 一 个 简单 而 又 直观 的 例子 来 介绍 一 些 基 本 的 稳定 性 概念 。 考 虑 重力 
场 中 一 个 球形 轴承 的 运动 ( 带 有 摩擦 消耗 )。 在 图 17-2(a) 中 ， 模 的 底部 (点 a* ) 放 有 一 个 球形 
轴承 。 如 果 我 们 将 轴承 移 到 一 个 不 同 的 位 置 ， 它 将 会 在 权 里 前 后 振荡 起 来 。 但 是 ， 由 于 摩 摊 
力 ， 它 最 终 将 回 到 槽 的 底部 ， 我 们 称 这 个 位 置 为 渐 近 稳定 点 (asymptoticaly s stable point), Xf 


它 将 在 下 一 小 节 中 精确 地 定义 。 
现在 看 图 17-2(b)。 在 一 个 平坦 表面 的 中 心 放置 了 一 一 个 球形 轴承 。 如 果 我 们 将 轴承 移 到 


一 个 不 同 的 位 置 ， 它 不 会 发 生 运动 。 既 然 轴承 移 走 后 没有 回 到 原来 的 位 置 ， 因 而 该 表面 中 心 
的 那个 位 置 不 是 渐 近 稳定 点 。 然 而 ， 从 某 种 意义 上 说 它 又 是 稳定 的 ， 因 为 至 少 小 球 没有 离 中 
心 点 越 滚 越 远 。 我 们 称 这 种 点 为 Lyapunov 意义 上 的 稳定 ， 这 将 在 下 一 小 布 中 定义 。 

现在 考虑 图 17-2(c)。 球 被 放 在 一 个 小 山 的 顶部 。 这 是 一 个 平衡 位 置 ， 事 实 上 ， 只 要 我 
们 小 心地 放置 小 球 ， AL 
下 山 。 这 是 一 个 不 稳定 的 平衡 点 。 


(a) 球 在 槽 底 | (b) 球 在 平面 上 (oc) 球 在 山顶 上 


图 17-2 


在 下 一 章 ， 我 们 试图 设计 Hopfield 神经 网 络 ， 它 里 面 存储 的 原型 模式 将 是 一 些 渐 近 稳 
定 的 平衡 点 。 我 们 也 希望 这 些 稳定 点 的 吸引 区 尽 可 能 地 大 。 

举 个 例子 ， 考 虑 图 17-3。 我 们 希望 设计 像 情况 A 那样 拥有 很 大 吸引 区 的 神经 网 络 。 一 
个 自然 的 想法 是 一 个 以 很 大 摩擦 力 滚动 的 小 球 (初速 为 0) 被 放 在 情况 A 的 任 -- 个 槽 区 里 ， 它 
都 将 留 在 槽 区 内 并 最 终 找到 到 达 底 部 (稳定 点 ) 的 路 径 。 然 而 ， 情 况 B 就 相对 复杂 了 。 例 如 ， 
如 果 带 摩擦 力 的 小 球 处 于 P 点 的 位 置 ， 那 么 不 能 确定 最 终 是 娜 一 个 稳定 点 会 捕获 小 球 。 小 
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(HIE A 
大 的 吸引 樟 
\ 
情形 B 复杂 的 吸引 区 域 
SA 
图 17-3 MRIs 
球 可 能 并 不 在 最 靠近 P 点 的 稳定 点 静止 下 来 。 要 指出 某 个 特定 的 稳定 点 的 吸引 区 有 多 大 也 
同样 困难 。 
至 此 我 们 已 经 提出 了 一 个 稳定 性 的 直观 概念 。 在 本 章 剩 下 的 部 分 我 们 将 对 它们 进行 严密 
的 数学 推导 。 
定义 


平衡 点 “我们 对 上 一 小 节 讨 论 的 各 种 类 型 的 稳定 性 给 出 专门 的 数学 定义 。 在 这 些 定义 中 
将 讨论 平衡 点 的 稳定 性 。 一 个 平衡 点 a* 是 指使 等 式 (17.1) 中 导数 为 0 的 点 。 为 简化 问题 ， 
我 们 将 特别 讨论 点 a* = 0， 这 个 点 被 称 为 原点 。 这 一 限制 并 不 影响 讨论 的 一 般 性 。 

定义 1 稳定 性 (在 Lyapunov 的 意义 下 ) 

一 个 原点 是 稳定 的 平衡 点 ， 如 果 对 于 任意 给 定 的 值 s> 0 ， 总 存在 一 个 数 8(e) > 0， 使 得 
当 |a(0)| <5 时 产生 的 运动 a(1) 对 于 :>0 满 足 |a(1)| <e。 

这 个 定义 说 明 ， 只 要 一 个 系统 的 输出 最 初 接近 一 个 稳定 点 ， 那 r 
么 它 就 不 会 运动 到 高 稳定 点 太 远 。 讨 论 的 问题 是 : 希望 系统 的 输出 
保持 在 距离 原点 不 超过 的 范围 内 。 如 果 该 原点 是 稳定 的 ， 那么 总 能 找到 一 个 距离 8( 可 能 是 
e 的 函数 )， 若 系统 在 时 间 1 = 0 时 的 输出 落 在 离 原 点 S 的 范围 内 ， 那 么 它 就 将 总 是 落 在 离 原 
点 s 的 范围 内 。 右 图 (图 17-2(b) ) 中 小 球 (初速 为 0) 的 位 置 在 Lyapunov 意义 上 是 稳定 的 ， 只 
要 小 球 会 受到 摩擦 力 的 作用 。 如 果 小 球 不 受到 摩擦 力 影响 ， 那 么 任意 一 个 初速 度 都 会 产生 小 
球 运 动 轨迹 a(t)， 其 位 置 永远 不 固定 。( 此 例 中 ， 向 量 a( i) 应 由 小 球 的 位 置 和 速度 构成 。) 

下 面 ， 让 我 们 来 考虑 一 个 更 强 的 渐 近 稳定 性 概念 。 

定义 2 渐 近 稳定 性 - 

一 个 原点 是 一 个 渐 近 稳定 的 平衡 点 ， 如 果 存 在 一 个 值 5> 0， 只 要 |a(0)| < 83， 产生 的 运 
动 在 :一 % 时 满足 |a( 1) | 一 0。 


这 是 稳定 性 的 一 个 较 强 的 定义 。 它 说 的 是 只 要 系统 的 输出 最 初 是 
在 离 稳定 点 距离 为 5 范围 之 内 ， 那 么 输出 就 最 终 收 敛 于 稳定 点 。 在 有 Ne, 
图 (图 17-2(a) ) 中 ， 小 球 (初速 为 0) 的 位 置 是 一 个 渐 近 稳定 点 ， 只 要 小 


球 会 受 摩擦 力 影响 ,如果 没有 摩 掠 力 , 这 个 位 置 就 只 是 Lyapunov 意 
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义 上 的 稳定 点 。 

我 们 愿意 建立 一 个 拥有 很 多 特定 的 渐 近 稳定 点 的 神经 网 络 ， 它 们 中 的 每 -- 个 代表 一 个 原 
型 模式 。 这 即 是 我 们 将 在 第 18 章 建 立 Hopfield 网 络 的 设计 目标 。 

除了 稳定 性 的 定义 ， 在 分 析 稳 定性 时 我 们 还 会 用 到 另 一 个 概念 。 那 就 是 定 函 数 (definite 
function) 的 概念 。 下 面 两 个 定义 将 前 明 这 个 和 概念 。 

定义 3 正定 

一 个 标量 函数 了 (al)， 当 了 (0) =0 且 VV(a)>0(az0) 时 ， 称 为 正定 的 。 

定义 4 FER 

一 个 标量 函数 Via), 4 Vae (对 于 所 有 的 a) 时 ， 称 为 半 正 定 的 。 

(这 些 定 义 可 做 适当 修改 用 来 定义 负 定 和 半 负 定 。) 现 在 我 们 已 定义 了 稳定 性 ， 让 我 们 来 
考虑 一 个 测试 稳定 性 的 方法 。 


17.2.3 Lyapunov 稳定 性 定理 | 
一 个 最 重要 的 研究 非 线 性 系统 稳定 性 的 途径 之 一 ， 是 俄罗斯 数学 家 Alexandr 


Mikhailovich Lyapunov 介绍 的 理论 。 昌 然 他 的 主要 著作 早 在 1892 年 首次 出 版 ， 但 是 直到 很 


久 以 后 才 引 起 俄罗斯 国外 学 者 的 注意 。 在 这 一 节 我 们 将 讨论 Lyapunov 的 一 个 最 强 有 力 的 关 
于 稳定 性 分 析 的 技术 一 一 直接 法 。 
考虑 一 个 自主 (无 外 力 ， 不 明显 依赖 于 时 间 ) 系 统 : 


da = g(a) (17.2) 


_ Lyapunov 稳定 性 定理 现在 可 表述 如 下 : 

定理 1 Lyapunov 稳定 性 定理 

如 果 能 够 找到 一 个 正定 函数 V (a)， 使 得 dV (a)/dt 是 半 负 定 的 ， 那 么 对 于 方程 (17.2) 所 
示 系 统 ， 原 点 (a= 0) 是 稳定 的 。 如 果 能 够 找到 一 个 正定 函数 Y(a) ， 使 得 dV(a),di 是 一 个 负 定 
函数 ， 那 么 原点 (a= 0) 是 渐 近 稳定 的 。 在 这 种 情况 下 ，T 被 称 为 系统 的 Lyapunov, PAR. 

你 可 以 把 Y(a) 看 作 一 般 的 能 量 函 数 。 该 定理 要 表明 这 样 一 个 概念 : 如 果 一 个 系统 的 能 
量 在 持续 减 小 (dV (a)/di 负 定 )， 那 么 它 将 最 终 处 于 某 个 最 小 能 量 状态 。Lyapunov 的 观点 使 
能 量 的 概念 一 般 化 ， 因 而 该 定理 可 被 应 用 到 能 量 难 以 表达 或 没有 意义 的 系统 中 。 

我 们 应 该 注意 ， 该 定理 仅仅 说 明 如 果 能 找到 一 个 合适 的 Lyapunov 函数 V (a)， 系 统 就 
是 稳定 的 。 它 并 没有 告诉 我 们 一 个 不 能 找到 这 样 的 函数 的 系统 的 稳定 性 信息 。 


17.2.4 BRIT 


可 以 通过 将 Lyapunov 的 稳定 性 定理 应 用 到 一 个 简单 的 机 械 系统 来 领会 它 。 这 个 系统 非 
常 简单 ， 并 且 其 操作 容易 可 视 化 ， 它 还 可 以 解释 在 下 一 章 应 用 到 神经 网 络 设计 中 的 一 些 重要 


概念 。 该 示例 系统 即 为 如 图 17-4 BAN 
利用 牛顿 第 二 定律 (F = ma)， ni 


ml (0) = 一 Er — mgsin(@) (17.3) 


或 者 
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图 17-4 H 


ml a +c 7 + mgsin(@) = 0 (17.4) 


其 中 6 为 摆 角 ，m 是 单 摆 的 质量 ，! 是 摆 长 ，e 是 阻尼 系数 ，g 是 引力 常量 。 

方程 (17.3) 中 等 号 右边 第 一 项 是 阻力 ， 它 与 单 摆 的 速度 成 正比 。 正 是 这 一 项 代表 了 该 系 
统 中 的 能 量 消 耗 。 方 程 右边 第 二 项 是 重力 ， ESI i AY IEA RIE k. AEE EARN A 
0， 在 单 摆 水 平时 最 大 。 

当 阻 尼 系 数 不 为 0 时 ， 单 摆 会 最 终 停 挂 在 垂直 的 位 置 。 这 时 可 以 狂 作 6= 0， 而 更 一 般 
的 是 6=2rn， 其 中 m=0，+1，+t2，+3，…。 也 就 是 说 ， 给 定 某 个 合适 的 初始 条 件 ， 单 
摆 可 以 处 于 9= 0 的 状态 ， 或 者 它 可 能 转 一 圈 到 达 6 = 2r 状态 ， 等 等 。 它 有 很 多 平衡 状态 。 
(在 位 置 6= xn 处 ， 对 于 奇数 n， 这 些 位 置 是 平衡 点 ， 但 不 稳定 。) : 

为 了 分 析 该 系统 的 稳定 性 ， 将 以 状态 变量 的 形式 写 出 单 氛 方程 ， 它 们 将 表现 为 一 对 一 阶 
微分 方程 。 选 择 如 下 的 状态 变量 : 


ict the = (17.5) 
以 这 些 状态 变量 的 形式 写 出 单 所 方程 如 下 : 
day 
di = (2 | (17.6) 
da | 
> = sin(a) - a, (17.7) 


现在 来 考查 该 单 摆 系 统 原点 (a= 0) 的 稳定 性 。( 原 点 对 应 于 摆 角 为 0 ARRAN 0 的 状态 。 ) E 


先 检查 原点 是 一 个 平衡 点 。 将 a=0 代 和 人 状态 方程 : 
da 


7, = a2 = 0 (17.8) 
da? & re aT ae | 
ae ee ) sin(a; ) E “we =a ] sin(0) - e = 0 (17.9) 


既然 导数 为 0， 故 原点 是 一 个 平衡 点 。 
然后 要 找 出 单 摆 的 Lyapunov AR. 在 本 例 中 ， 将 用 系统 的 能 量 作 为 人 PRX Vo 


为 得 到 单 摆 的 总 能 量 ， 将 其 动能 和 势能 相 加 : 
Via) = 3 ma) + mgl(1 ~ cos(a;)) (17.10) 


为 了 测试 系统 稳定 性 ， 将 V 对 时 间 求 导 : 
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F IV{da;\ 3V/da 
dz V 6a) = [VV(a)]*p(a) = ro er ers wre (47.11) 


V(a) 的 偏 导 数 可 从 等 式 (17.10) 中 求 得 ， 两 个 状态 变量 的 导数 已 在 等 式 (17.6) 和 (17.7) 


CV (a) = (mgl sin(a;))a2 + (mi?ag)| 一 “sin( a) = < (17.12) 
将 项 (mgl sin(a,)) a, RIA, RAF 
LV (a) ee en (17.13) 


为 了 证 明 原 点 (a= 0) 是 新 近 稳 定 的 ， 必 须 证 明 该 导数 是 负 定 的 。 在 原点 ， 该 导数 为 0， 
同时 只 要 4a, = 0， 无 论 a, 为 什么 值 它 也 为 0。 这样，dV(a)/di 是 半 负 征 的 ， 而 不 是 负 和 定 
的 。 于 是 由 Lyapunov 定理 知 ， 原 点 是 一 个 稳定 点 。 但 是 ， 不 能 说 根据 定理 和 这 个 Lyapunov 
AA, DIRE. 

ERMA PRIN, REPRRER, CMHRASEERIVE, Al, RARE 
MEN, BÆ, Lyapunov 定理 ， 利 用 Lyapunov BAM, WREKIN AER. 
要 证 明 原 点 是 渐 近 稳定 的 ， 需 要 改进 Lyapunov 定理 为 LaSalle 不 变性 定理 。LaSalle 不 变性 
定理 将 在 下 一 小 节 讨 论 。 

首先 ， 让 我 们 用 特殊 的 数据 实例 来 进一步 研究 单 摆 。 令 g =9.8,， m=l, 1=9.8, 
c = 1.96。 重 写 单 欣 状态 方程 如 下 : 


= 2 (17.14) 
= — sin(a,) -0.2a， (17.15) 
RE 了 和 它 的 导数 如 下 : 
V = (9.8)"| LCa)? + 4 — cos(a;)) (17.16) 
oF =- (19.208) (a2) (17.17) 


注意 ， 对 任意 的 a, 值 ， 只 要 a,=0, BN Ay dV/dt=0. 


图 17-5 显示 了 当 摆 角 变化 范围 为 - 10 到 + 10 WE, FREE — 2 到 + 2 弧度 每 秒 时 ， 


能 量 曲面 Y 的 三 维 图 和 等 值 图 。 注 意 在 这 个 范围 内 能 量 曲面 有 三 个 可 能 的 最 小 点， 在 0 和 +2r。 





图 17-5 单 摆 能 量 曲 面 
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(我 们 将 在 第 18 BAB Lyapunov 函数 的 最 小 点 对 应 于 一 个 自 相 关 神 经 网 络 的 原型 模式 。 单 
摆 系 统 ， 正 如 递归 神经 网 络 ， 有 许多 最 小 点 。) 

当然 ， 从 能 量 图 17-6 中 不 知道 单 摆 以 什么 方式 或 者 由 什么 路 线 找到 了 特殊 的 能 量 最 小 
点 。 为 了 反映 这 个 情况 ， 在 图 17-5 中 我 们 画 了 一 个 能 量 等 值 图 ， 上 面 有 一 条 单 摆 的 特殊 路 
径 。 这 条 蓝 色 的 响应 轨迹 ， 从 1.3 WEL Ae cl(0) 和 1.3 弧度 每 秒 的 初始 速度 
a2(0) 开 始 。 轨 迹 收敛 于 平衡 点 a= 0。 | 





图 17-6 ”状态 变量 平面 的 单 摆 响应 


两 个 状态 变量 的 时 间 响 应 如 图 17-7 所 示 。 请 注意 ， 因 为 初速 度 是 正 的 ， 故 单 摆 一 开始 
不 停 运 动 。( 察 看 是 否 与 图 17-6 一 致 .) 在 下 落 前 它 到 达 大 约 为 2 弧度 的 最 大 角 。 振 荡 将 持续 


衰减 至 两 个 状态 变量 都 收敛 于 0。 


0 f /SIS 


t 
图 17-7 ”状态 变量 a 与 a, 的 时 间 图 
在 本 例 中 ,两 个 状态 变量 都 收敛 于 0。 但 是 ， 以 后 会 看 到 ， 这 并 不 是 惟一 可 能 的 平衡 


Fo 

画 出 如 图 17-8 的 单 摆 能 量 ( 了 ) 图 也 比较 有 意思 。 回 忆 方 程 (17.17) 能 量 永 远 不 会 增加 ， 
这 与 图 17-8 一 致 。 方 程 (17.17) 还 预测 能 量 曲线 的 导数 只 有 当 速 度 a, 为 0 时 才 会 为 0。 如 下 
比较 一 下 图 17-8 和 图 17-6， 这 也 得 到 了 验证 。 每 一 次 a, HABEAS, AEE HER Hs 


1710) 率 即 为 0。 
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图 17-8 2872 Lyapunov 函数 (能 量 ) 的 时 间 图 


请 注意 ， 虽 然 有 许多 点 能 量 曲线 的 导数 为 0， 但 导数 并 未 保持 为 0 直到 能 量 本 身 也 为 0。 
这 个 观察 将 导出 LaSalle 不 变性 定理 ， 在 下 一 小 节 会 讨论 到 。 该 定理 的 主要 思想 是 确定 那些 
Lyapunov 函数 导数 为 0 的 点 ， 并 判断 系统 是 否 会 陷入 那 些 点 。( 那 些 可 能 使 一 条 轨迹 陷 人 的 
地 方 叫做 不 变 集 。) 如 果 只 有 一 个 点 ， 能 使 轨迹 陷 和 人， 并且 具有 零 导数 ， 又 是 原点 ， 则 这 个 原 
点 即 为 渐 近 稳定 的 。 

这 一 小 节 以 图 的 形式 展示 了 基于 两 个 状态 变量 的 初始 条 件 的 特殊 单 摆 行 为 。 对 于 初始 条 
件 的 不 同 选择 将 会 导致 图 中 完全 不 同 的 结果 。 我 们 将 在 下 一 小 节 对 这 一 点 作 展开 讨论 。 


试验 单 摆 请 用 Neural Network Design Demonstration Dynamic System (nndl7ds) 。 





17.2.5 LaSalle 不 变性 定理 


单 摆 的 例子 展示 了 Lyapunov 定理 的 一 个 问题 。 我 们 找到 了 一 个 其 导数 仅 为 半 负 定 ( 而 不 
是 负 定 ) 的 Lyapunov 函数 ， 而 且 也 知道 原点 在 单 摆 系 统 中 是 渐 近 稳定 的 。 在 这 -一 小 节 ， 我 们 
将 介绍 一 个 站 明 Lyapunov 定理 不 确定 性 的 定理 。 它 定义 了 那些 使 Lyapunov 函数 的 导数 为 0 
的 状态 空间 中 的 区 域 ， 然 后 确定 区 域 中 能 使 轨迹 发 生 陷 人 的 那些 部 分 。 | 

在 讨论 LaSalle 不 变性 定理 之 前 ， 需 要 首先 介绍 下 面 的 定义 。 

1. 定义 

定义 5 Lyapunov 3k 

S 了 是 一 个 从 中" FIRES PP. Æ GER" 的 任 一 子 集 ， 称 了 了 ERR dadi = 
g(a) 的 一 个 C 上 的 Lyapunov RX, RE 

da = (YY(a)) g(a) (17.18) 


在 C 上 不 改变 符号 。 
这 是 在 定理 1 中 用 到 的 Lyapunov 函数 前 述 定 义 的 推广 ， 这 里 不 要 求 函数 是 正定 的 。 事 


实 上 ， 对 函数 本 身 并 没有 直接 的 要 求 (除了 它 是 连续 可 微 的 )。 惟 一 的 要 求 是 关于 的 导数 。 
其 导数 在 集合 G 上 任何 地 方 都 不 改变 符号 。 注 意 ， 如 有 果 号 数 是 半 人 负 定 的 或 半 正 定 的 束 不 会 
改变 符号 。 
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应 留意 这 里 仍 没 有 解释 怎样 选择 集合 C。 我 们 将 利用 下 面 的 定义 和 定理 为 一 个 给 定 的 
系统 选择 一 个 最 好 的 C。 
定义 6 集合 Z 
= ja: dV(a)/dt = 0, a 在 6 的 闭 包 中 i (17.19) 
这 里 “6 的 闭 包 "包括 6 的 内 部 和 边界 。 这 是 一 个 关键 集合 。 它 包含 所 有 使 Lyapunov K 
PERN 0 的 点 。 以 后 将 决定 该 集合 中 的 娜 些 地 方 会 使 系统 轨迹 发 生 隐 入 。 
定义 7 不 变 集 
一 个 RR" 中 的 点 集合 关于 da/dt = g(a) 是 不 变 的 ， 如 果 dad = g(a) 的 每 一 个 解 开 始 都 在 
集合 中 并 始终 保持 在 该 集合 中 。 
如 有 果 一 个 系统 进 和 人 了 某 个 不 变 集 ， 那 么 它 就 不 能 再 离开 。 
定义 8 RAL 
L 定义 为 Z 中 的 最 大 不 变 集 。 
该 集合 包括 所 有 可 能 使 解 收敛 的 点 。Lyapunory 函数 在 L 中 不 会 改变 (因为 其 导数 为 0)， 
并 且 轨 迹 将 会 在 L 中 陷入 (因为 它 是 不 变 集 )。 现 在 ， 如 果 这 个 集合 只 有 一 个 稳定 点 ， 那 么 
那个 点 就 是 渐 近 稳定 的 。 这 即 是 LaSalle 定理 大 体 上 将 告诉 我 们 的 。 
2. 定理 
LaSalle 不 变性 定理 是 Lyapunov 稳定 性 定理 的 扩展 。 在 下 一 章 我 们 将 用 它 设计 Hopfield 
网 络 。 该 定理 推导 参见 | Lasa67 |. 
定理 2 LaSalle 不 变性 定理 
a V Æ da/dt=g(a)ft G EÉ) Lyapunov BA, WARTA t>0, 保留 在 G 中 的 每 
一 个 解 a(t) 当 上 一时, BF Ls LU ol, (CRAMANBER, BM L 的 吸引 区 。) 
若 所 有 的 轨迹 都 有 界 的 ， 则 当时 tokt, a(t)-L. | 
若 一 条 轨迹 停留 在 G 中 ， 那 么 它 也 将 收敛 于 工 ， 或 者 趋 于 无 限 。 如 果 所 有 的 轨迹 都 是 
有 界 的 ， 那 么 所 有 的 轨迹 都 将 收敛 于 Lo 
有 一 个 我 们 将 广泛 使 用 的 LaSalle 定理 的 推论 ， 它 涉及 以 一 种 特殊 的 方式 选择 集合 CH 
问题 。 
推论 1 LaSalle 定理 的 推论 
令 6 包含 于 集合 
Qo = fa: Via) < (17.20) 
中 (作为 一 个 连通 的 子 集 )。 假 设 6 是 有 界 的 , 在 6 EdV(a)/dt<0, BORG L = closure 
(LOG) G 的 一 个 子 集 。 那 么 ?是 一 个 吸引 于， 而 6 在 它 的 吸引 区 内 。 
LaSalle 定理 以 及 它 的 推论 都 是 很 有 用 的 。 它 们 不 仅 告诉 了 我 们 哪些 点 是 稳定 的 ( 疡 ")， 
而 且 也 给 我 们 提供 了 部 分 的 吸引 区 ( G)。( 注 意 L* 在 推论 中 的 定义 与 定理 中 的 不 一 样 。) 
为 阐明 LaSalle 不 变性 定理 ， 证 我 们 回 到 先前 讨论 的 单 摆 例 子 中 。 
3. 例子 
将 推论 1 运用 于 单 摆 例 子 。 第 一 步 是 要 选择 集合 Q,， 该 集合 将 被 用 来 选择 集合 CH 
一 部 分 )。 
在 本 例 中 使 用 值 = 100， 因 此 Qio 即 为 能 量 小 于 等 于 100 的 点 组 成 的 集合 。 
Qoo = ia: Va) < 100; (17.21) 
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该 集合 用 黑色 显示 在 图 17-9 中 。 





图 17-9 RE Qio 的 图 示 


分 析 的 下 一 步 是 选择 Oo 的 一 个 部 分 (连通 的 子 集 ) 作 为 集合 6G。 既然 研究 的 是 原点 的 稳 
定性 ， 就 选择 包含 a= 0 的 Qio 的 那个 部 分 。 该 子 集 纸 果 如 图 17-10 所 示 。 





图 17-10 集合 6 HAA 


现在 已 选 完了 集合 C， 下 面 需 要 检查 Lyapunov 因数 的 导数 在 C 上 是 否 小 于 等 于 0。 由 
方程 (17.17) 知 ，dyY(a)vdt 是 半 负 定 的 ， 因 此 它 在 C 上 当然 小 于 等 于 0。 
现在 准备 确定 吸引 子 集合 Loo AZ 中 的 最 大 不 变 集 上 开始。 
Z= la:dV(a)/dt = 0,a Æ GĦ} 
_ la: a, -oa 在 6 中 | 


这 也 可 以 写成 
Z= ia: a = 0,-1.6< a, < 1.6} (17.23) 
由 方程 (17.17) 知 Y(a) 的 导数 仅 当 速度 为 0 时 才 为 0， 这 相当 于 a 轴 。 因 此 Z 即 由 落 
在 G 中 的 那 段 o; HMM. HE Z 显示 在 图 17-11 中 。 / 
集合 L 是 2Z 中 的 最 大 不 变 集 。 要 找到 工 就 必须 回答 这 样 一 个 问题 ， 如 果 在 -1.6 与 1.6 
扳 度 间 的 初始 位 置 以 零 初 速度 释放 单 摆 ， 那 么 单 摆 的 速度 会 保持 为 零 吗 ? 很 清楚 这 样 的 初始 
条 件 只 能 是 在 0 绝 度 处 (垂直 悬挂 )。 如 果 在 Z 中 的 其 他 任意 位 置 释放 单 拥 ， 单 摆 都 会 下 落 ， 
因而 速度 不 会 保持 为 零 并 且 轨 迹 将 会 移出 2 的 范围 。 因 此 ， 集 合 L RARE: 
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图 17-11 集合 Z 的 图 示 


L = ia:a= 0} (17.24) 
集合 L* 是 和 6 的 交集 的 闭 包 ， 在 本 例 中 ， 它 就 是 L: 
L° = closure(L 1.) G) = L= jata=0 (17.25) 


因此 ， 根 据 LaSalle 推论 ，Z" 是 一 个 吸引 子 ( 渐 近 稳定 点 )， 而 C 是 在 它 的 吸引 区 内 。 这 意味 
着 任何 开始 于 G 的 轨迹 都 将 衰减 至 原点 。 


现在 ,假设 有 一 个 更 大 范围 的 Q, AAN 
Oho = ja: V(a) < 300} (17.26) 


该 集合 在 图 17-12 中 用 灰色 表示 。 


Q: o 


图 17-12 G = fwo0o( 灰 色 ) 和 2 的 图 解 


S G = (300， 因 为 Q3oo 只 有 一 个 部 分 。 集 合 ZA RAH: 
Z = ja: a = 0} (17.27) 
它 在 图 17-12 中 用 水 平 轴 上 的 黑色 条 表示 。 这 样 可 以 推 知 
L°? = L = ja: aj =+ nz,a = 0} (17.28) 


这 是 因为 现在 Z 中 有 几 个 不 同 的 位 置 ， 在 那些 地 方 放置 单 摆 不 会 导致 速度 变 成 非 零 。 单 摆 
可 能 直接 朝 上 或 朝 下 。 这 相当 于 + nx 的 位 置 ，n 是 任意 整数 。 如 果 将 单 摆 置 于 这 些 位 置 中 
任 一 处 ， 初 速 为 零 ， 那 么 单 摆 将 保持 静止 。 可 以 令 方程 (17.14) 和 (17.15) 中 导数 为 零 来 表明 
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这 点 : 
d 
= 42 = 0 (17.29) 
daz 
Ge = 一 sin(a,) = O.2a, 三 一 sin(a,) = 0) (a, = + nt) (17.30) 


在 C = 03o 这 个 选择 下 ， 很 难说 轨迹 会 在 哪 一 个 点 收敛 。 我 们 试图 增加 已 知 的 原点 吸引 
区 的 大 小 ,但 C 是 一 个 对 所 有 平衡 点 的 吸引 区 。 我 们 使 G 过 于 大 了 。 集 合 LER 17-13 中 


用 黑色 点 表示 。 
YV VN 


图 17-13 集合 L° 


我 们 不 能 分 辨 哪 一 个 平衡 点 (黑色 点 ) 将 吸引 轨迹 。 所 有 我 们 能 说 的 是 如 果 从 Q300 中 某 个 
地 方 开 始 ， 有 一 个 平衡 点 将 吸引 系统 的 解 ， 但 不 能 确切 地 说 出 是 哪个 点 。 例 如 ， 考 虑 如 图 
17-14 的 轨迹 。 它 表示 一 个 初始 位 置 为 2 弧度 、 初 速度 为 1.5 弧度 每 秒 的 单 欣 的 响应 轨迹 。 
这 时 单 摆 具 有 足够 大 的 速度 跨 过 顶部 ， 然 后 收敛 于 位 于 27 弧度 的 平衡 点 。 





图 17-14 不 同 起 始 条 件 下 的 单 摆 轨 迹 


至 此 已 讨论 了 LaSalle 不 变性 定理 ， 你 可 能 起 做 些 更 多 的 单 摆 实 验 ， 去 分 析 不 同 
的 稳定 点 的 吸引 区 。 做 单 摆 实 验 请 用 Neural Network Design Demonstration Dy- 





namic System (nndl7ds) 。 
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4. 评述 

LaSalle 定理 的 关键 是 对 Lyapunov 函数 V 和 集合 CHAF, RIAA C 尽 可 能 地 大 ， 
因为 它 指示 着 吸引 区 的 范围 。 但 是 ， 又 希望 选择 了 进而 使 集合 Z 尽 可 能 地 小 ， 因 其 包含 有 
吸引 子 集合 。 

举 个 例子 ， 试 令 了 = 0。 这 和 是 咒 "整个 空间 上 的 一 个 Lyapunov 函数 ， 它 的 导数 无 论 在 何 
处 缘 为 0( 因 此 不 会 改变 符号 ) 。 但 是 ， 由 于 Z = 种 "*， 并 未 得 到 什么 信息 。 

注意 ， 如 果 Vi 和 V, 都 是 G EM Lyapunov 函数 ， 且 dVi/di 与 dV,/dt 有 相同 的 符 
5, BA V=V,+ V 也 是 一 个 Lyapunov MR, HA Z=Z NZ WR Z UZ, 和 2, 都 
小 ,那么 了 是 一 个 比 OV, 或 V, 都 "更 好 "的 Lyapunov BR. V 总 是 至 少 与 六 或 Va 一 梓 
“OF”, AA Z 永远 不 会 比 2i 和 2Z, 中 的 较 小 者 大 。 因 此 ， 如 有 果 你 发 现 了 两 个 Lyapunov pf 
数 ， 并 且 它 们 的 导数 具有 相交 的 和 从 号， 那么 将 它们 加 到 一 起 ， 你 将 获得 一 个 更 好 的 函数 。 对 
于 一 个 给 定 的 系统 。 其 最 好 的 Lyapunov 函数 是 那 种 具有 最 小 的 吸引 子 集合 和 最 大 的 吸引 区 
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17.3 小 结 


稳定 性 概念 


定义 

定义 1 稳定 性 (在 Lyapunov 的 意义 下 ) 

原点 是 一 个 稳定 平衡 点 ， 如 果 对 于 任意 给 定 值 s> 0 ， 总 存在 一 个 数 8(e) > 0， 使 得 当 
|a(o)| < 5 时 产生 的 运动 a(1) 满 足 |a(1)| <s(t> 0)。 

定义 2 渐 近 稳定 性 

原点 是 一 个 渐 近 稳定 平衡 点 ， 如 果 存在 一 个 值 $ > 0 ， 使 得 当 | a(0) | < 8 时 产生 的 运动 
在 :一 o 时 满足 | a(t) || 一 0。 

定义 3 正定 

— tr RAK V (a), 24 V(0)=08 Via) >0(az0) 时 是 正定 的 。 

EX4 FER 

一 个 标量 函数 Y(a) ， 当 Y(a) >0 (对 于 所 有 a) 时 是 半 正 定 的 。 


Lyapunov 稳定 性 定理 


考虑 一 个 自主 (无 外 力 的 不 明显 地 依赖 于 时 间 ) 的 系统 
da 

dt = 8a) 
Lyapunov 稳定 性 定理 可 表述 如 下 。 

定理 1 Lyapunov 稳定 性 定理 

如 果 能 够 找到 一 个 正定 函数 V(a)， 使 得 dV (a)/dt 是 半 负 定 的， 那么 对 于 方程 (17 .2) 
所 示 系 统 ， 原 点 (a=0) 是 稳定 的 。 如 果 能 够 找到 一 个 正定 肾 数 Via), E4 dV (a)/di 是 一 
个 负 定 函数 ， 那 么 其 原点 (a = 0) 是 渐 近 稳定 的 。 在 这 种 情况 下 ，『 被 称 为 系统 的 Lyapunov 


‘17-19; 函数 。 
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LaSalle 不 变性 定理 


定义 
ie 5 Lyapunov 3 
令 VV 是 一 个 从 RR" FIRES RM. AC ER" 的 任 一 子 集 ， 称 V 是 系统 da/dt = 
eg G 上 的 Lyapunov AŽ, WR 
dV a) _ (VVv(a)) g(a) 


在 G 上 不 改变 符号 。 
定义 6 REZ 
Z = la:dV(a)/dt = 0, ak G 的 闭 包 中 1 (17.31) 
定义 7 不 变 集 
n 中 的 一 个 点 集合 C 关于 da/dt = g(a) 是 不 变 的 ， 如 果 da/di = g(a) 的 每 一 个 开始 于 G 
中 的 解 始终 保持 在 6 Po 


定义 8 REL 
L 定义 为 Z 中 最 大 的 不 变 集 。 
定理 


定理 2 LaSalle 不 变性 定理 

Æ V Æ dadt = g(a) TE G ER Lyapunov 函数 ， 那 么 对 于 所 有 1 > 0，C 中 的 每 一 个 解 
a(t)24 t> tF L* = LU iw}。(G 具有 所 有 的 稳定 点 ， 是 对 工 的 吸引 区 。) 若 所 有 的 轨 
迹 都 是 有 界 的 ， 则 当时 toh} alt)>L. 

推论 1 «LaSalle 定理 的 推论 

令 6 包含 于 集合 

Q, = fa: V(a) < (17.32) 

中 (作为 一 个 连通 的 子 集 )。 假 设 6 是 有 界 的 , 在 G EdV(a)/di<0, BORE L= closure 
(LOCE 6 的 一 个 子 集 。 那 么 L°* 是 一 个 吸引 了 于， 而 C 是 它 的 吸引 区 。 


17.4 例题 
P17.1 测试 下 面 系统 中 原点 的 稳定 性 : 
da,/dt =- a; + (a2)* 
das/dt = - aa(al + 1) 


解 
这 里 基本 的 工作 是 找到 一 个 正定 的 Lyapunov AM V(a)， 其 导数 是 半 人 负 定 的 ， 或者， 
更 好 是 负 定 的 。( 后 者 是 一 个 更 强 的 条 件 。) 
试用 V(a) = (a1)?*+ (a2)*。V(a) 的 导数 为 
d V (a) aV{dai\ , 2V{daz 
dt = (Vy) "(YP a) = Du | + SE | 


或 者 
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srta) = 2a,(- a; + (a) 01) = - 2(a,)? - 2( a2)” 
原点 是 渐 近 稳定 的 。 


导数 dV(a)/dit EMER AE, 
P17.2 测试 下 面 系统 中 原点 的 稳定 性 : 
dai/dt = - (a Y” 


E Sl az) 


392 


da,/dt = 


解 
试用 V(a) =(a,)°+(a2)*o FRA 
- 10(a,)° 


aKa) L 2al- (an)9 + 2a2(- 5(a2)") =- 2a) 

这 里 dV (a)/dt 也 是 负 定 的 ， 因 此 原点 是 渐 近 稳定 的 。 

P17.3 考虑 图 17-15 所 示 的 机 械 系 统 。 这 是 一 个 具有 一 个 非 线性 弹 移 的 弹 知 - 物 块 - 阻 
我 们 定义 a= x 和 az = dx/dt， 则 运动 方程 为 

da,/dt = a3 


ERRA 
daz/dt = - (aY — a (GERTE) 
考虑 候选 Lyapunov 函数 
v(a) = 4 (ai) + (m2)? 
利用 LaSalle 不 变性 定理 的 推论 提供 尽 可 能 多 的 关于 平衡 点 和 吸引 区 的 信息 。 
Vx 
图 17-15 “机械 系统 
解 
首先 计算 V(a) 的 导数 ， 
AV Ca) SY (Set) + (2) = Cao + al- (a)? ~ a) =~ (a2)? 
IH, dV /dt ER 上 不 改变 符号 。 

ia; V(a) <7) 


现在 定义 
G =, = 
17-22) 并 且 考 虑 1= 1 的 情况 。Y(a) 的 等 值 图 如 图 17-16 所 示 。 集 合 Qi 在 图 中 用 黑色 标志 。 
现在 要 判定 集合 Zo 
Z= la:dV/dt = 0，a 在 6 的 闭 包 中 } = ia: =0, af CHAAR 


Z = la: a =0,-vV2 三 ol 三 V2| 


或 者 


下 面 找 集合 工 。 由 于 a= 0 是 惟一 的 不 变 集 
b= fa: a, = 0, @ = 0} 


因此 ， 原 点 


waw ai bbt. com 








是 一 个 吸引 子 ， 且 Q 即 为 它 的 吸引 区 。 

进一步 ， 可 以 增加 值 ， 使 整个 %* 都 是 原点 的 吸引 区 。 

图 17-17 展示 了 弹簧 - RR -阻尼 顺从 初始 位 置 2、 初 始 速 度 2 开始 的 啊 应 。 注 意 ， 轨 
WEF a 轴 时 与 等 值 线 平 行 。 这 与 早先 的 结论 相符 ， 即 只 要 a, = 0 时 ，Lyapunoy 函数 
的 导数 为 0。 幸 运 的 是 ，&, 轴 不 是 一 个 不 变 集 ( 除 了 原点 以 外 ); 因而 轨迹 只 被 原点 所 吸引 。 





图 17-17 弹簧 - 物 块 - 阻尼 融 啊 应 


P17.4 考虑 下 面 的 非 线性 系统 : 
dai/dt = a;((a;)* + (a2)* - 4) - aa 


daz/dt = a, + a2((a;)* + (az) - 4) 


该 系统 具有 两 个 不 变 集 ， 即 原点 


lia:a= 0} 


Fu R] 


la: (a,)? + (a,)* = 4 


假设 候选 Lyapunov Pax 
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V(a) = (a) + (a)? 
利用 LaSalle 不 变性 定理 ， 找 出 关于 原点 吸引 区 的 尽 可 能 多 的 信息 。 


解 
于 是 ， 我 们 的 工作 是 判断 所 给 的 不 变 集 是 否 代 表 了 一 个 稳定 点 或 者 一 个 稳定 的 轨迹 。 首 


先 看 一 看 dYvdt。 回 想 
dV(a) 2K (cai) oF (caz) 


dt ai\ dt dar dz 
替换 其 可 变 项 得 到 
E E = 2ajlai( (a)? + (az)? ~ 4) - az] T 2al a; + a:( (a)? 十 (a2)? - 4)] 
4 fel AY 


E = 2((a,)* + (a2) )( (a1) + (a2)? - 4) 


这 样 ， 在 a= 0 处 和 在 圆 (ci) + (a2)? =4 E, dV/dt $F 0- 
现在 选取 吸引 区 Co ETR 上 dyYxvdt HAS ARE? 有。 当 我 们 在 2 孤 度 处 从 圆 
的 外 部 进入 圆 的 内 部 时 ，dV/dt 的 符号 由 正 变 到 负 。 因 此 dvV/de ER a) + (a)? =4W 


”部 是 半 负 定 的 。 在 此 圆 内 部 选 一 个 CE， 使 圆 不 被 包括 在 其 中 。 下 面 的 集合 满足 要 求 ; 


17-24) 


G=ù = la: V(a) <1} 
现在 考虑 Qi。 刚好 有 两 个 地 方 dV/dt=0, #E Q 内 仅 有 的 一 个 点 为 a=0。 因 此 


Z = ja: a, = 0, a, = 0} 


L=L=Z 
原点 为 吸引 子 ，01 是 它 的 吸引 区 。 可 以 用 同样 的 理由 说 明 原点 的 吸引 区 包括 圆 (ci 六 + 


(a) =4 内 部 的 所 有 点 。 
图 17-18 画 出 了 该 系统 的 两 条 轨迹 ， 一 条 开始 于 圆 (c) +a) =4 的 内 部 ， 另 一 条 开 
始 于 该 圆 的 外 部 。 虽 然 该 图 是 一 个 不 变 集 ， 但 它 不 是 一 个 吸引 子 。 这 个 系统 惟一 的 吸引 子 是 


原点 。 





图 17-18 ”例题 P17.4 的 样本 轨迹 
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P17.5 考虑 下 面 的 非 线 性 系统 : 
da(t)/(dt) =- (a(t) - 1)(a(t) - 2) 
(i) 找 出 所 有 该 系统 的 平衡 点 。 
(ii) 利用 候选 Lyapunov KŘ 
V(a) = (a -2)° 

获取 你 能 从 (i) 小 题 中 找到 的 有 关 平 衡 点 吸引 区 的 所 有 信息 。( 提 示 ; 利用 LaSalle 不 变性 定 
理 的 推论 ,) 

g 

(i) 为 找 出 平衡 点 ， 令 da(t)/dt=0. 


O=-(a-1)(a-2) => aa=l'a=2 为 平衡 点 
(ii) 为 利用 LaSalle 定理 的 推论 ， 需 要 求 dV/di o 


aY - ($2) = = ole ~ 2) eu tea Deo 


现在 令 
G=, = a: Via) <q! 
例如 ， 取 n=0.5， 于 是 
G = o.s = la: (a-2) < 0.5| 


注意 ,求解 (c - 2)*<0.5 得 
+ (a-2)< V0.5 或 者 1.3 < a < 2.7 


这 样 ， Pp ERE 
接 下 来 要 找 出 集合 2， 它 包含 了 G 中 那些 使 dV /dt 等 于 零 的 点 。 有 两 个 点 使 dV/di 
等 于 0, 即 a=1 和 a=2。 其 中 只 有 一 个 落 在 CF, Alt 
| Z = la ‘a= 2| 
现在 需要 找到 L, M Z 中 的 最 大 不 变 集 。2 中 只 有 一 个 点 ， 而 且 是 一 个 平衡 点 ， 于 和 是 
P=Ll=Z 


这 意味 着 6 处 于 2 的 吸引 区 中 。 
可 以 用 同样 的 方法 将 " 增 为 1.0 重 来 一 次 。 于 是 可 以 说 对 于 a = 2 的 吸引 区 至 少 应 包括 


la:l<a<3| 
如 果 考虑 那些 n> 1 的 区 域 会 怎样 呢 ? 这 样 2 包括 1 和 2 在 内 ，dV/dt 在 G 上 将 改变 符 
号 。 因 此 使 用 这 个 Lyapunov 函数 和 LaSalle 不 变性 定理 的 推论 ， 就 不 能 说 出 任何 关于 a = 1 


的 吸引 区 的 内 容 。 
图 17-19 展示 了 这 个 系统 某 些 典 型 的 响应 。 这 里 可 以 看 出 平衡 点 a = 1 其 实 是 不 稳定 的 。 
任何 超过 a = 1 的 初始 条 件 都 会 收敛 于 a = 2。 任 何 小 于 a = 1 的 初始 条 件 都 会 趋 于 负 无 穷 大 。 
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图 17-19 ”例题 P17.5 的 稳定 和 不 稳定 响应 


17.5 结束语 


在 这 一 章 里 ， 作 为 动力 系统 的 应 用 ， 提 出 了 稳定 性 的 概念 。 对 于 非 线性 的 动力 系统 ， 如 
像 递 归 神 经 网 络 ， 我 们 不 讨论 有 关系 统 稳定 性 的 问题 ， 而 是 讨论 茶 些 系统 轨迹 的 稳定 性 ， 特 
别 是 在 平衡 点 位 置 。 

本 章 主 要 讨论 了 两 个 稳定 性 定理 。 第 一 个 是 Lyapunov 稳定 性 定理 , 它 介 绍 了 广义 的 能 
景 一 Lyapunov 函数 的 概念 。 这 个 定理 背后 的 思想 是 ， 如 果 一 个 系统 的 能量" 总 在 减 小 ， 
那么 它 最 终 将 稳定 于 最 小 "能量 AE. 

提出 的 第 二 个 定理 是 LaSalle 不 变性 定理 ， 它 是 Lyapunov 稳定 性 定理 的 一 种 加 强 。 
LaSalle 作出 了 两 个 主要 改进 。 第 一 是 前 明 这 样 一 种 现象 ， Lyapunov 函数 在 整个 状态 空间 不 
减 小 ， 但 是 在 某 些 区 域 保持 常数 值 。LaSalle 定理 引入 不 变 集 的 概念 来 确定 那些 区 域 ， 它 们 
可 以 捕捉 系统 轨迹 。LaSalle 定理 作出 的 第 二 个 改进 是 ， 它 不 仅 指 明了 平衡 点 的 稳定 性 ， 而 
且 也 给 出 了 关于 每 个 稳定 点 的 吸引 区 的 信息 。 

这 一 章 提出 的 一 些 思 想 是 分 析 递 归 神 经 网 络 的 重要 工具 ， 如 对 于 第 15 章 和 第 16 章 的 
Grossberg ZR HAT. (LaSalle 不 变性 定理 在 递归 神经 网 络 中 的 应 用 参见 [CoGr83 j。) 在 第 
18 章 ， 将 利用 LaSalle 定理 解释 Hopfield 网 络 的 操作 。 
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线性 微分 方程 解法 和 线性 及 非 线 性 系统 的 稳定 性 ， 写 得 很 好 。 本 书 有 很 多 例 蜗 。 
[CoGR83] M. A. Cohen and S. Grossberg, “Absolute stability of global pattern formation and 
parallel memory storage by competitive neural networks, JEEE Transactions on Systems, 
Man and Cybernetics, vol. 13, no. 5, pp. 815 - 826, 1983. 
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的 描述 是 非常 一 般 化 的 ， 作 者 们 展示 了 如 何 将 他 们 的 分 析 运 用 到 很 多 不 同类 型 的 化 归 


ww ai bbt.com 0000000 


IZÈ H Z B 397 


神经 网 络 上 。 

_Lasa67} J. P. LaSalle, “An invariance principle in the theory of stability,” in Differential E- 
guations and Dynamic Systems, J. K. Hale and J. P. LaSalle, eds., New York: Academic 
Press, pp. 277 — 286, 1967. 

这 篇 文章 提供 了 对 Lyapuov 稳定 性 理论 及 其 的 几 种 扩展 的 统一 表示 。 文 中 介绍 了 
LaSalle 不 变性 定理 和 才干 推论 。 

| SILi91 |] J. - J. E. Slotine and W. Li, Applied Nonlinear Control, Englewood Cliffs, NJ: 

Prentice-Hall, 1991. 
主要 介绍 非 线 性 控制 系统 ， 本 书 的 很 大 一 部 分 内 容 集 中 在 动态 非 线 性 系统 的 分 析 


上 。 书 中 还 提出 和 展示 了 一 些 稳定 性 定理 。 pee 
>) 
E17.1 利用 Lyapunov 稳定 性 定理 测试 下 面 系统 中 原点 的 稳定 性 。 
( i) da,/dt= - (a1) + a, 
da,/dt 一 — @;—- @2 
(ài) da,/dt = - a,+(a,)? 


| da,/dt= - a,(a; +1) 
E17,2 考虑 下 面 的 非 线 性 系统 : 
da,/dt = a, - 2a,((a,)* + (ay) 
da,/dt = —- a, — 2a,((a,)* + (a2) 
(i) 利用 Lyapunov 稳定 性 定理 和 下 面 所 示 的 候选 Lyapunov 哨 数 考察 原点 的 稳 
定性 : 
V(a) = a(a;)? + B(a,)” 
(ii) 通过 写 出 MATLAB M- 文 件 来 模拟 该 系统 对 几 个 不 同 的 初始 条 件 的 响应 
检查 你 在 (i) 小 题 得 到 稳定 性 结果 。 利 用 ode45 例 行 程序 。 画 出 啊 应 图 。 
E17,3 对 于 非 线 性 系统 da/dt = sin(a) 
(i) 找 出 所 有 不 变 集 。 
(ii) 找到 一 个 Lyapunov BA, HEERS FRAME. 17-30 
E17,4 考虑 下 面 的 非 线性 系统 : 
da,/dt = a» 
da,/dt =~ a, ~ (az) 
(i) 找 出 所 有 平衡 点 。 
( 往 》 找 出 尽 可 能 多 的 关于 这 些 平 衡 点 稳定 性 的 信息 ， 利用 LaSalle 定理 的 推论 和 
候选 Lyapunov PRX 
V(a) = (a1) + (a) 
(iti) 通过 写 出 MATLAB M- 文 件 模拟 该 系统 对 几 个 不 同 的 初始 条 件 的 啊 应 ， 检 
FOS GERAR, AH ode45 例 行 程序 。 画 出 咖 应 图 。 
E17.5 考虑 下 面 的 非 线 性 系统 : 
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da/dt =(1-a)(1+a)=1- a’ 

(i) 找 出 所 有 平衡 点 。 

(ii) 找到 一 个 合适 的 Lyapunov PARK» (提示 : 从 dV/di 形式 人 手 ， 反 癌 推 叶 找 
H Vo) 

(iii) 画 出 Lyapunov R% B. 

(iv) 利用 LaSalle 定理 的 推论 和 (这 小 题 的 Lyapunov 函数 找 出 关于 吸引 区 的 尽 可 
能 多 的 信息 。 可 能 的 话 使 用 图 形 。 
(提示 : 图 17-20 中 所 示 图 形 可 能 会 有 帮助 。) 





f(a) =1 - (a/B)? 


17-31 17-20 WHUHMEMVTSHAPRHHM RR 


E17.6 考虑 系统 
da,/dt = a - al((al)+2(0a) - 10) | 
da,/dt =- (a,)° ~- 3(a,)°((a,)* + 2( a2)? -- 10) 
(i) 求 所 有 不 变 集 。 (为 有 助 于 确定 个 变 集 ， 可 以 用 MATLAB M- 文件 模拟 此 系 
统 。) 
(ii) 利用 候选 Lyapunov K% 
V(a) = ((a,)* + 2(a,)* - 10)? | 
17-32 和 LaSalle 定理 的 推论 ， 考 查 你 从 (i) 题 求 出 的 不 变 集 的 稳定 性 。 
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第 18 章 Hopfield 网 络 


18.1 目的 


本 章 将 要 讨论 Hopfield 递归 神经 网 络 。 这 种 网 络 对 20 世纪 80 年 代 初 神经 网 络 研 究 的 重 
新 兴起 有 重大 影响 。 我 们 首先 给 出 这 个 网 络 的 描述 ， 然 后 将 展示 如 何 用 Lyapunov 稳定 性 原 
理 来 分 析 网 络 的 运算 。 最 后 ， 我 们 将 说 明 如 何 设计 网 络 使 其 具有 联想 存储 器 性 能 。 

本 章 把 前 面 各 章 讨论 的 主题 结合 起 来 : 离散 型 Hopfieid 网 络 ( 第 3 章 ); 特征 值 与 特征 向 
量 ( 第 6 章 ); 联想 存储 器 和 Hebb 规则 (第 7 章 ); MRE. BRER ZAR h e LA 
及 轮 廊 图 (第 8 章 ); 最 速 下 降 法 和 状态 平面 轨迹 (第 9 章 ); 连续 的 递归 网 络 (第 15 B); 
Lyapunov 稳定 性 定理 和 LaSalle 不 变性 定理 (第 17 章 )。 这 一 章 在 基 些 方面 是 前 面 各 章 工作 
的 最 终结 果 。 


18.2 理论 和 实例 


在 20 世纪 80 年 代 初 期 ， 神 经 网 络 研 究 的 重新 兴起 可 归功 于 John Hopfield 的 工作 。 作 为 
一 个 著名 的 物理 学 家 ，Hopfield 的 名 声 和 科学 资历 使 人 们 对 神经 网 络 的 研究 恢复 了 信心 。 在 
60 年 代 中 期 ， 由 于 误解 人 们 对 神经 网 络 的 研究 前 景 很 不 乐观 。 在 Hopfield 早期 学 术 活 动 中 ， 
他 曾 研 究 光 和 固体 间 的 相互 作用 。 后 来 ， 他 集中 精力 研究 生物 分 子 间 的 电子 转移 机 制 。 可 以 
想像 ， 他 在 数学 和 物理 学 上 的 学 术 研 究 和 他 后 来 在 生物 学 上 的 经 验 的 结合 ， 为 他 在 神经 网 络 
提出 的 概念 和 所 作 的 贡献 莫 定 了 基础 。 

Hopfield 分 别 在 1982 年 和 1984 年 号 了 两 篇 非常 有 影响 的 论文 Hopf82]、 [Hopf84]。 这 
两 篇 文章 集中 了 前 人 的 许多 观点 ， 如 McCulloch 和 Pitts 的 神经 模型 | McPi43]，Grossberg 的 
改进 模型 1 Gros67], Anderson 和 Kohonen 的 线性 联想 器 模型 [Ande72]、[ Koho72] 以 及 An- 
derson、Silverstein、Ritz 和 Jones 的 盒 中 脑 状态 模型 | AnSi77 |. Hopfield ITE COB) EE SF, 
他 把 一 些 重 要 思想 结合 起 来 并 进行 了 简明 的 数学 分 析 ( 包 括 Lyapunov 稳定 性 定理 的 应 用 )。 

还 有 一 些 原因 使 Hopfield 的 论文 显得 如 此 重要 。 首 先 ， 他 指出 了 神经 网 络 与 统计 物理 学 
中 磁性 材料 的 Ising 模型 的 相似 之 处 。 这 就 使 许多 已 存在 的 理论 可 用 来 对 神经 网 络 进行 分 析 ， 
同时 也 鼓舞 了 很 多 物理 学 家 以 及 其 他 科学 家 和 工程 师 开 始 注意 对 神经 网 络 的 研究 。 

Hopfield 也 与 VLSI 芯片 的 设计 者 们 有 接触 ， 因 为 他 长 期 与 AT&T 贝尔 实验 室 保持 联 
系 。 早 在 1987 年 ， 贝 尔 实验 室 就 已 成 功 的 在 Hopfield 网 络 基础 上 开发 了 神经 网 络 芯 片 。 神 
经 网 络 的 一 个 主要 应 用 前 景 在 于 VLSI 和 光学 设备 的 并 行 实现 。Hopfield 发 表 了 他 的 网 络 实 
现 思想 也 就 使 他 与 先前 的 神经 网 络 研 究 者 区 分 开 来 。 

Hopfield 强 凋 实践 ， 不 仅 体 现在 他 的 网 络 的 实现 上 ， 同 时 也 体现 在 这 些 网 络 所 解决 的 问 
题 上 。 他 早期 的 论文 描述 的 应 用 包括 按 内 容 寻 址 存储 器 (后 文 将 要 讨论 )， 模 数 转 换 


TaHo86] 及 优化 问题 LTHoTa85j (BOGE RRA A] eR) o 
下 一 节 将 要 提出 Hopfield 模型 。 我 们 使 用 Hopfield 1984 年 的 论文 L Hopf84] 中 的 连续 型 


ww aibbt.com TO 00000 


400 AP LE PA $8 18 tf 


18-2) 模型 。 然 后 ， 用 Lyapunov 的 稳定 性 原理 和 LaSalle 不 变性 定理 来 分 析 Hopfield 模型 。 最 后 一 
节 我 们 将 展示 如 何 使 用 Hebb 规则 把 Hopfield 网 络 设计 成 按 内 容 寻 址 的 存储 器 。 


18.2.1 Hopfield 模型 


Hopfield 模型 ”与 他 的 实践 观点 一 致 ，Hopfield 以 电路 的 形式 提出 了 他 的 模型 。 基 本 的 
模型 ( 抑 LHopf84]) 如 图 18-1 Aras. 


放大 器 
输出 


电阻 器 





图 18-1 Hopfield 模型 


每 个 运算 放大 右 及 其 相关 的 电阻 /电容 网 络 代表 一 个 神经 元 。 神 经 元 有 两 组 输入 。 第 一 
组 是 重 定 的 外 部 和 输入， 用 电流 h, In, ce 表示 。 第 二 组 来 自 其 他 运算 放大 器 的 反馈 连接 。 
例如 ， 第 2 个 输出 a, 反馈 到 电阻 Rs 上， 而 它 又 连 到 放大 器 $ 的 输入 上 。 电 阻 只 能 是 正 
的 ， 但 可 通过 使 某 个 放大 器 的 输出 反 相 而 使 一 个 神经 元 获得 负 的 输入 。( 在 图 18-1 中 ， 第 一 
个 放大 希 倒 问 的 输出 通过 电阻 Raz,1 连 到 第 二 个 放大 青 的 输入 上 。) 

从 Kirchhoff 的 电流 定律 可 推导 出 Hopfield 模型 的 运算 方程 


18-3 | ç Amt) = D Tiy a;(t) - mee | (18.1) 


AP n; ane Haein Aaa. ai 是 第 ; A C 表示 放大 苍 的 输入 
BS, J 是 第 ; 个 放大 天 的 固定 输入 电流 。 同 时 有 : 


ee 1 oe a 
Tl = Bi R= pt Ra ni = f(ai)( 或 a; = f(ni)) (18.2) 


f(n) 是 放大 器 的 特性 函数 。 在 此 处 和 下 文中 我 们 将 假设 电路 是 对 称 的 ， 因 此 T= Ti 
放大 器 的 传输 函数 a = f( ni) 通 常 是 一 个 S 形 函数 。S 形 函 数 及 其 反 函 数 我 们 都 假设 为 
增 函 数 。 在 本 章 稍 后 ， 我 们 将 给 一 个 合适 的 传输 函数 。 
在 方程 (18.1) 两 边 乘 以 R,, WEB 


RiC Se - Dar t) —n,(t) + RL, (18.3) 


这 可 以 转化 为 标准 的 神经 网 络 表示 法 ， “如 果 定义 
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e= RC, w;, = R,T;,; Mb; = Ril, (18.4) 

现在 (18.3) 式 可 改写 为 , 
pMa =-nj(t) + 2 w, a(t) + b; (18.5) 

写成 向 量 形式 就 是 
eda) ns) + Walt) +b (18.6) 


a(t) = f(n(z)) (18.7) 
相应 的 Hopfield 神经 网 络 显示 在 图 18-2 中 。 





n(0) =f (p), (a(0)=p) edn/dt=-n+Wf(n)+b 


图 18-2 Hopfield 网 络 


因此 ，Hopfield 的 起 初 的 S 型 运算 放大 器 电路 可 方便 地 用 标准 神经 网 络 表示 法 表示 。 注 
意 输入 向 量 p 决定 着 网 络 的 初始 输出 。 正 如 本 章 最 后 将 要 讨论 的 那样 ， 这 种 形式 的 Hopfield 


网 络 可 用 来 作 联想 仓储 豆 网 络 。 18-4 
18.2.2 Lyapunov 函数 
用 Lyapunov 稳定 性 定理 分 析 递 归 网 络 是 Hopfield 的 一 个 主要 贡献 。(Cohen 和 Grossberg 
同期 也 用 Lyapunov 原理 来 分 析 竞 争 性 的 网 络 !CoGr83j)。 在 这 一 节 ， 我 们 将 污 示 如 何在 
Hopfield 网 络 中 使 用 第 17 章 提出 的 LaSalle 不 变性 定理 。 用 LaSalle 定理 的 第 一 步 是 选择 一 个 
Lyapunov 函数 。Hopfield 建议 采用 下 面 的 PKI Š : 
V (a) = -7a Wa+ >) [|p du} bra (18.8) 
Hopfield 选择 这 个 特殊 的 Lyapunov 的 函数 也 是 他 的 主要 贡献 之 一 。 注 意 第 -- 和 第 三 项 组 成 
了 一 个 二 次 函数 。 在 本 章 后 面 有 一 节 ， 将 用 先前 关于 二 次 函数 的 结果 来 分 析 这 个 Lyapunov 
PAR 
为 了 使 用 LaSalle 定理 ， 我 们 将 需要 估计 Y(a) 的 导数 。 为 清晰 起 见 ， 我 们 分 别 考 虑 
Y(a) 的 三 项 。 用 等 式 (8.37) ， 第 一 项 的 导数 为 
出 [{- 款 arwaj = -二 [arwWa]79 =- [Wa]? $? = - arWS8 (18.9) 
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V(a) PR a 由 积分 和 组 成 。 aaa 每 一 项 积分 ， aiai 以 得 到 | 
da; 

















R df" 广 '(u)du} = = Pa Lge f(u)du} = f(a, = on S (18.10) 
IMF V(a) 中 第 二 one 
fra] = ar ag ID 
由 式 (8.36)， 我 们 可 得 到 Y(a) 第 三 项 的 导数 
/ diaba} =- V[b"a]" $2 = - b7 98 (18.12) 
因此 V(a) 的 总 导数 可 改写 为 
EV (a) =-aW Pin P-S - [_arW+anr pa (18.13) 
由 式 (18.6) ， 我 们 知道 
T 
[-a WA+n -b'] - -| dnt (18.14) 
因此 式 (18.13) 又 可 写作 
niż da $ dn; da; 
goda a Se as 
因为 n; =f '(a;), BU n 的 导数 可 展开 成 ; 
a)] = AL a) (18. 16) 
现在 式 (18.15) 可 重 写 为 
EV (a) --e2 人 (4 mi) (ae) a eD (ah LC) (2) (18.17) 
如 果 f-1( 4a) 是 一 个 增 函数 ， 对 每 个 运算 放大 器 来 说 有 
-TI(oD)] > 0 (18.18) 
Hy 3h (18.17), A 
$V (a) <0 (18.19) 


如 果 f'(a Ee BAH, MA dV (a)/di 是 一 个 半 负 定 函 数 。 所 以 VV(a) 是 一 个 有 效 的 


Lyapunov 函数 。 
1. 不 变 集 
现在 我 们 用 LaSalle 的 不 变性 定理 来 求 Hopfield 网 络 的 平衡 点 。 第 一 步 先 求 集 台 Z( 式 
(17.19)): 
Z=ia:dV(a)/dt = 0, aF CHM! (18.20) 
这 个 集合 包含 了 Lyapunov 函数 所 有 导数 为 0 的 点 。 现 在 假设 CER BEK, 
从 式 (18.17) 可 知 ， 如 果 每 个 神经 元 输出 的 导数 值 为 零 ， 则 这 样 的 导数 为 零 。 


da 
"= = 0 (18.21) 
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当 输出 的 导数 值 为 0 时 ， 电 路 处 于 平衡 状态 。 因 此 ， 这 些 系统 能量“ 不 峙 变化 的 点 也 就 是 电 
路 的 平衡 点 。 
这 就 意味 着 Z 中 最 大 的 不 变 集合 L, MERA Z: 
L=Z (18.22) 
因此 ，2Z 中 所 有 点 都 是 潜在 的 吸引 于 。 
其 他 的 一 些 特 征 我 们 在 下 面 例子 中 解释 。 





2. 实例 
下 面 这 个 例子 选 自 Hopfield 的 论文 [Hopfg4j。 我 们 考虑 有 这 样 一 个 放大 器 特性 的 系统 : 
a = f(n) = Stan“! 12") (18.23) 
这 个 式 子 又 可 写作 
n= tan( 5a) (18.24) 
Bika ASRMAR, HSH TEA ATK eA, Alt 
Rio = Ro, = 1, Tiz2= [2 = 1 (18.25) 
所 以 我 们 有 加 权 和 矩阵 
W = p 4 (18.26) 
ale ü ; 
如 果 放 大 器 的 输入 电容 也 设置 为 1， 我 们 有 
e= RC= 1 (18.27) 
为 假设 Y=1.4 且 li 1520. 因此 
b = | (18.28) 
0 
回忆 等 式 (18.8)，Lyapunov 函数 为 
V(a) =- ja Wa + > [| fC u)du}- bra (18.29) 
对 于 本 例 ，Lyapunov 函数 的 第 一 项 为 
- JaWa =- [a | We = — @;@) (18.30) 
a2 
第 三 项 是 0， 因 为 b 为 0。 第 二 项 的 第 i 部 分 为 
a, 9 fa, 2 x 2 g 
W '(u)du = ar tan( Zu) du = 2| - tog cos| Eu} | (18.31) 
此 式 可 简化 为 
“ze Ae x 
iy 'Cu)du =- mE cos| 7 a.) (18.32) 


最 后 ， 把 所 有 三 项 都 代入 式 (18.29)， 我 们 有 Lypunov KR: 


Wi date 4) ogfcos( Z a) | + log] cos{ 3 a2) j lace 
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现在 可 以 写 出 网 络 的 方程 ( 式 (18.6))。 设 s=1 且 =0， 即 为 


oP. n+ Wf(n) =-n+Wa 


如 果 代 入 式 (18.26) 的 加 权 和 矩阵 ， 这 个 表达 式 又 可 写 为 下 面 两 个 方程 . 


dni/di = CQ2 — Ny 


dn2/dt = a- n> 





神经 元 的 输出 为 
a; = tan”! HAE) 
rA (14r 
ay = tan 7 na 


(18.34) 


(18.35) 
(18.36) 


(18.37) 


(18.38) 


至 此 我 们 已 找到 Lyapunov 函数 的 表达 式 和 网 络 的 运算 方程 。 让 我 们 看 看 网 络 的 特性 。Lya- 


punov pa ex ES Ae AS SE aE] 18-3 所 示 。 





图 18-3 Hopfield 实例 的 Lyapunov pk SVAN BI ah 


图 中 的 轮廓 线 表示 Lyapunov 函数 的 常数 值 。 系 统 有 两 个 吸引 了 于， 一 个 在 图 中 的 左下 方 ， 


另 一 个 在 右上 方 。 系 统 从 左上 方 开始 收敛 于 左下 方 的 稳定 点 ， 如 粗 线 所 示 。 


图 18-4 显示 了 两 个 神经 元 输出 的 时 间 啊 应 曲线 。 





图 18-4 Hopfield 实例 的 时 间 啊 应 图 


wwaibbt.com 0000D000 ~” 


18 Ë Hopfield HH 405 


K| 18-5 显示 了 Lyapunov KAAT. RE, EAA TT ATEEK. 


图 18-5 Lyapunov RĀ CMa) hy Æ 


系统 在 原点 还 有 一 个 平衡 点 。 如 果 把 网 络 初始 化 在 任何 从 左上 角 到 右 下 角 的 对 角 线 上 ， 
则 解 收 仿 于 原点 。 但 是 ， 如 果 任 何 初始 条 件 不 落 在 这 条 对 角 线 上 ， 最 终 将 收敛 到 左下 角 或 右 
上 角 的 解 。 在 原点 的 解 是 Lyapunov 函数 的 一 个 鞍点 ， 不 是 局 部 极 小 值 。 这 个 问题 在 下 一 小 lL18-10 
节 讨 论 。 图 18-6 显示 了 收敛 于 鞍点 的 轨迹 。 





图 18-6 Hopfield 网 络 收敛 于 鞍点 的 情形 


试验 Hopfield 网 络 请 用 Neural Network Design Demonstration Hopfield Network 
(nnd18hn) 。 


这 个 例子 给 我 们 提供 了 一 些 Hopfield 网 络 吸引 子 的 情况 。 在 下 一 小 人 ， 我 们 将 做 进一步 


分 析 。 

3.Hopfield 网 络 吸 引子 | 

在 前 一 小 节 的 例子 中 ， 我 们 发 现 Hopfield 网 络 的 吸引 子 是 Lyapunov 函数 的 稳定 点 。 现 
在 我 们 要 证 明 在 一 般 情形 下 也 是 如 此 。 回 忆 式 (18.21)，Hopfield 网 络 的 潜在 吸引 子 应 满足 


da _ (18.39) 





这 些 点 与 Lyapunov 函数 的 极 小 值 有 什么 关系 ? 在 第 8 H((8.27)) P, RTM — Ta 
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的 极 小 值 一 定 是 稳定 点 (梯度 为 0)。T(a) 的 稳定 点 应 满足 








aV ƏV aV 
VV = Ee on a. = 0 (18.40) 
其 中 
V (a) =~ +a’Wa+ Sd) br (18.41) 
2 — Wo | 
仿照 推导 式 (18.13) 的 过 程 ， 可 得 Y(a) 梯 度 的 表达 式 
VV(a) = |- Wa+n-b] =-e daca) = (18.42) 
因此 梯度 的 第 i 个 元 率 为 
和 Ya) =- -se =e Bp ad) =e gh ly (ay) (18.43) 
附带 说 一 下 ， 如 果 f(a) PREM, 018.43) BRE 
a ~~ gVV(a) (18.44) 


Alu, Hopfield 网 络 的 啊 应 是 沪 着 最 陡 的 方向 下 降 的 。 这 样 ， 如 果 在 广 (a) 一 个 近似 线性 
的 区 域内 ， 网 络 的 解 也 就 近似 地 沿 最 陡 方 同 下 降 。 
我 们 已 经 假设 传输 晴 数 和 它 的 反 函 数 是 单调 增 函 数 。 因 此 ， 


-EC a) >0 (18.45) 
由 式 (18.43)， 满 足 
da _ 0 (18.46) 
的 点 也 是 满足 
VV(a) = 0 (18.47) 
的 点 。 
因此 ， 作 为 集合 L 中 的 元 素 且 满足 式 (18.39) 的 吸引 子 也 是 Lyapunov 函数 了 (a) 的 稳定 
= 
18.2.3 增益 效应 


如 果 我 们 考虑 放大 器 的 增益 系数 7 非常 大 的 情况 ， 那 么 Hopfield Lyapunov RAS Al 4 
简化 。 回 忆 前 面 例 子 中 的 非 线 性 放大 天 的 特性 
a = f(n) = Z tan! ( 72") (18.48) 
图 18-7 显示 了 这 个 函数 对 于 四 种 不 同 增益 系数 的 曲线 。 
增益 系数 y 决定 了 曲线 在 n =0 处 的 陡 度 。 随 着 7 的 增 大 ， 曲 线 在 原点 的 斜率 增 大 。 妆 
7 无 限 增 大 时 ，f(n) 接 近 于 正人 负 和 号 函数 。 
由 式 (18.8)， 一 般 的 Lyapunov 函数 是 


V (a) =- 3a Wa+ >) (fd) - ba (18.49) 
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图 18-7 反正 切 放 大 器 特性 
对 前 面 那 个 例子 ， 


f-'(u) = Z tan( 5) (18.50) 
KIE, Lyapunov 函数 的 第 二 项 便 有 如 下 形式 : 


和 2 2 Kai 4 Ta; 
| f '(u)du = 2 | 2g (cos (2 ) = - re log sos (7%) | (18.51) 
高 增益 Lyapunov 函数 ”图 18-8 显示 了 三 个 不 同 增益 系数 的 函数 图 形 。 注 意 ， 当 y 增 大 
时 ， 函 数 变 得 平坦 并 且 在 大 部 分 地 方 都 趋 于 0。 因 此 ， 当 增益 系数 y 无 限 增 次 时 , 在 -1< 
a; < 1 范围 内 ，Lyapunov 函数 的 第 二 项 趋 于 0。 所 以 我 们 可 以 消去 这 一 项 ， 高 增益 Lyapunov 
PR RX EIB HLA 


Via) =- aT Wa — bfa (18.52) 





图 18-8 Lyapunov 函数 的 第 二 项 
比较 式 (18.52) 和 (8.35)， 我 们 不 难 发 现 高 增益 的 Lyapunov 晤 数 实际 上 就 是 一 个 二 次 项 数 : 
v(a) =- JaWa- b'a = 5 a"Aa+ d'a + c (18.53) 


其 中 
V*V(a) =A=-Wd=-bc=0 (18.54) 
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这 是 一 个 重要 的 发 展 ， 因 为 现在 我 可 以 用 第 8 章 关 于 二 次 图 数 的 结论 来 理解 Hopfield 网 络 的 
运算 。 

回忆 二 次 肯 数 的 曲面 形状 由 它 的 薪 森 和 矩阵 的 特征 信和 特征 回 量 决定 。 对 我 们 这 个 例子 来 
ii, Lyapunov eR aX) ai BR Fe FE 


V2V(a) =-We= | i ral (18.55) 
-1 0 
ok $e FEE AN FEE (ETT SO FP : 
| oe 
VV (a) - All = ; NELES = (A+ 1)(X--1) (18.56) 
因而 ， 特 征 值 是 和 = -1 和 X=1。 与 之 对 应 的 特征 向 量 是 
a = | | 和 wm | | (18.57) 


高 增益 Lyapunov 函数 的 曲面 形状 是 什么 样子 呢 ? 我 们 知道 这 个 赫 森 矩阵 有 一 个 正 的 和 
一 个 负 的 特征 值 ， 那 么 它 满足 鞍点 条 件 。 表 面 将 会 有 一 个 沿 着 第 一 个 特征 问 量 的 负 曲 率 和 洛 
痢 第 二 个 特征 问 量 的 正 曲 率 。 曲 面 如 图 18-9 所 示 。 


we 7 
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图 18-9 ”高 增益 Lyapunov 函数 的 例子 


这 个 函数 没有 极 小 值 。 但 由 于 网 络 被 放大 器 的 传输 函数 限制 在 超 立 方 体 {a: -1< wx<1li 
内 ， 因 此 ， 在 超 立 方 体 


| | 
a= | 和 a-| | (18.58) 
的 两 个 角 上 被 限制 为 极 小 值 。 当 增益 很 小 时 ， 在 原点 有 一 个 惟一 的 极 小 值 (见习 题 18.1), 
随 着 增益 的 增加 ， 两 个 极 小 值 从 原点 移 向 由 式 (18.$8) 给 出 的 两 角 。 图 18-3 显示 了 一 种 中 间 
情况 ， 它 的 增益 系数 > 为 1.4， 图 中 极 小 全 出 现在 


0.57 _ 0.57 
= 3 E R an] li 


通常 情况 下 ， 网 络 中 不 止 有 两 个 神经 元 ， 高 增益 的 极 小 值 将 落 人 超 立 方 体 ia: -1< a< 
1 的 某 个 角 。 在 描述 完 Hopfield 网 络 设计 过 程 后 ， 我 们 将 后 面 几 节 玩具 体 地 讨论 一 般 霄 形 。 
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18.2.4 Hopfield 网 络 设计 


Hopfield 网 络 没有 与 之 相关 的 学 习 规 则 。 它 不 被 训练 ， 也 不 会 目 己 学 习 。 它 是 用 基于 
Lyapunov 函数 的 设计 过 程 来 确定 权 值 矩阵 。 
再 次 考虑 高 增益 的 Lyapunov R% 


Via) =- 7 aT Wa _bia (18.60) 


Hopfield 网 络 设计 技术 的 关键 在 于 选择 权 值 矩阵 W 和 偏 置 向 量 b 以 便 使 V 能 得 到 想 要 的 最 
小 化 函数 形式 。 把 需要 求解 的 任何 问题 转化 为 二 次 函数 的 极 小 化 问题 。 距 然 Hopfield 网 络 可 
以 用 来 最 小 化 V， 那么 也 就 可 以 解决 原来 的 问题 。 自 然 ， 技 巧 在 于 转换 ， 一 般 来 说 ， 这 种 
转换 并 不 是 直接 的 。 

1 . 按 内 容 寻 址 存储 器 

按 内 容 寻 址 存储 器 ”在 这 一 人 小节， 我 们 将 描述 如 何 用 Hopfield 网 络 来 设计 联想 存储 疾 。 
我 们 将 设计 的 联想 存储 器 也 称 为 按 内 容 寻 址 的 存储 器 ， 因 为 它 能 够 按照 所 存储 内 容 的 一 部 分 
来 检索 数据 。 这 种 存储 器 同 标准 的 计算 机 存储 器 形成 对 比 ， 后 者 是 按照 存储 地 址 来 寻找 数据 
的 。 举 个 例子 ， 假 设 我 们 有 一 个 按 内 容 寻 址 的 数据 库 ， 它 包含 和 雇员 的 姓名 、 地 址 、 电 话 号 
码 。 我 们 能 够 通过 只 提供 雇员 的 名 字 ( 或 部 分 名 字 ) 来 得 到 一 个 完整 的 数据 单元 。 按 内 容 寻 址 
存储 器 就 像 第 7 章 所 描述 的 自 联想 存储 器 一 样 有 效 ( 参 见 7.2.4 节 )， 只 不 过 在 这 一 章 我 们 将 
使 用 递归 Hopfield 网 络 而 不 是 线性 联想 大。 

假设 我 们 要 在 Hopfield 网 络 中 存储 一 组 原型 模式 。 当 问 网 络 输 和 人 一 个 模式 对 ， 网 络 会 广 
生 一 个 与 输入 模式 最 相似 的 存储 模式 。 对 输 和 人 模式 指定 一 个 初始 网 络 输出 。 网 络 最终 和 输出 应 
收敛 于 与 输入 模式 最 接近 的 原型 模式 。 要 这 种 情形 发 生 ， 原 型 模式 必须 是 Lyapunov HAN 
极 小 值 。 

假设 原型 模式 为 

(Pi ae Po] (18.61) 

每 一 个 向 量 由 5 个 元 素 组 成 ， 每 个 元 素 值 为 1 或 -1。 假设 O <S, Re 
原型 模式 在 状态 空间 中 均匀 分 布 ， 彼 此 不 接近 。 

为 了 使 Hopfield 网 络 能 够 回忆 起 原型 模式 ， 这 些 模 式 必须 是 Lyapunov 函数 的 极 小 值 。 

既然 高 增益 的 Lyapunov 函数 是 二 次 函数 ， 我 们 需要 使 原型 模式 成 为 一 个 合适 二 次 负数 


的 限制 极 小 值 。 我 们 建议 使 用 下 面 的 二 次 性 能 指数 : 
JW -7 UO, ]7a)? (18.62) 


ARE a 的 元 素 被 限制 为 + 1, eyes yarns 型 模式 处 取 极 小 值 。 
假设 原型 模式 是 正 交 的 。 我 们 计算 一 个 原型 模式 的 性 能 指数 : 
S 


J(p;) =- 1Sa a = — = ((p,1"p,)? ze (18.63) 


式 中 的 第 二 个 等 号 是 由 于 原型 模式 的 正 交 性 。 最 后 一 个 等 号 是 由 于 p， 的 全 部 元 素 为 + 1。 
下 面 计算 一 个 随机 输入 模式 a 的 性 能 指数 。 我 们 假定 输入 模式 与 任何 原型 模式 都 不 相 
似 。 式 (18.62) 中 每 一 项 都 是 一 个 原型 模式 与 输入 模式 的 内 积 。 输 入 模式 与 原型 模式 越 接 近 ， 
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则 内 积 越 大 ; 反之 ， 则 越 小 。 因 而 ， 当 a 不 接近 原型 模式 时 ，J(a) 将 是 最 大 的 (最 小 负 值 ); 


反之 ，J(a) 将 是 最 小 的 (最 大 人 负 值 )。 

我 们 已 经 找到 了 一 个 能 够 精确 指示 按 内 容 寻 址 存储 带 性 能 的 二 次 晴 数 。 下 一 步 就 是 选择 
权 值 矩阵 W 和 偏 置 值 bp， 这 样 就 能 使 Hopfield Lyapunov 函数 V 等 价 于 二 次 性 能 指数 J. 

如 果 我 们 用 有 监督 的 Hebb 规则 来 计算 权 值 矩阵 (用 输入 模式 作 目 标 模式 )， 便 得 





W = Sp.) (18.64) 
并 设置 偏 置 什 
b=0 (18.65) 
这 样 Lyapunov HRA | | 
V(a) =- >a" Wa = — Lar Saar a =- DAS (18.66) 
上 式 又 可 与 为 


Via) =- L5 (p,) a] = J(a) (18.67) 


AK, Lyapunov pe SE By ERATE AAS EE aE UK PERE TE. Hopfield 网 络 的 输出 通常 
ARS WN FF RY DR (CITE CTE RAE r BE YS ) o 

如 第 7 章 指 出 的 那样 ， 有 监督 的 Hebb 规则 在 原型 模式 之 间 存 在 明显 相关 的 情况 下 效果 
并 不 好 。 在 这 种 情况 下 ， 可 采用 仿 逆 函数 技术 。 另 一 种 设计 技术 超出 本 书 的 范围 ， 可 参考 
[ LiMi89 ] 。 

在 最 好 的 情况 下 ， 原 型 模式 是 正 交 的 ， 每 一 个 原型 模式 都 是 网 络 的 一 个 平衡 点 。 但 是 ， 
仍 有 可 能 存在 很 多 其 他 平衡 点 。 这 样 ， 网 络 就 可 能 收敛 于 一 个 不 是 原型 模式 的 平衡 点 。 通 常 
在 使 用 Hebb 规则 时 ， 存 储 模式 的 数目 不 能 超过 神经 元 数 且 的 15% 。 参 考 书目 | LiMi89 | 讨论 
了 更 复杂 的 设计 过 程 ， 这 种 过 程 可 使 假 平 衡 点 数目 达到 最 小 。 

下 一 小 节 ， 我 们 将 进一步 分 析 平 衡 点 的 位 置 。 

2. Hebb 规则 

让 我 们 近 一 步 看 一 看 当 Hebb 规则 用 来 计算 权 值 矩阵 并 且 原 型 模式 是 正 交 的 情况 下 ， 
Hopfield 网 络 如 何 运算 。( 下 面 的 分 析 接 着 第 7 章 例 题 P7.5 的 讨论 )。 有 监督 的 Hebb 规则 为 


W = (18.68) 
如 果 把 原型 向 量 p 用 于 网 络 中 ， 那 么 有 
wp = Dip,(p,)"», = v,(,)"P, = Sp, (18.69) 


其 中 第 二 个 等 式 成 立 是 因为 原型 模式 是 正 交 的 ， 第 三 个 等 式 成 立 是 由 于 p , 的 每 个 元 素 不 是 
1 就 是 - 1。 等 式 (18.69) 有 如 下 形式 : 

Wp, = Ap, (18.70) 
因此 ， 每 个 原型 向 量 等 是 权 值 矩 阵 的 特征 向 量 且 它们 有 共同 的 特征 值 和 = S. RET A= S 


的 特征 问 量 空间 于 为 
X= spani p; ,p2，…, Po! (18.71) 
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这 个 空间 包含 所 有 能 写成 原型 向 量 线 性 组 合 的 向 量 。 这 就 是 说 ,一 个 向 量 a 只 要 是 原型 回 量 
的 线性 组 合 就 是 特征 向 量 。 
Wa = Wiap + Qp, 十“ + aopo | 
= icWp + o Wp, + + xzoWpo (18.72) 
= ja, Sp, +% Sp + … + ags Po! 
= Siap, + mp, +… +agpyi = Sa 
特征 值 X= S 的 特征 向 量 空间 是 一 个 & 维 的 空间 (假定 原型 向 量 线 性 无 入)。 
整个 ”空间 可 分 解 为 两 个 不 相交 的 集合 [| Brog85 |, 
Ro = XU X- (18.73) 
其 中 xt 大 的 正 交 补 集 。( 这 对 任何 集合 下 都 成 立 ， 不 仅 包 括 此 处 我 们 所 考虑 的 集合 。) 
x+ 中 的 每 个 向 量 均 与 X 中 每 一 个 向 量 正 交 。 这 就 是 说 对 于 任何 向 量 aC xX, 
(p,) a = Q, q = | Q (18.74) 


因此 ， 如 果 a€ X-, 
Wa = ty fi Tits. + - 0 -O°-a (18.75) 


所 以 8- 定义 了 重 特 征 值 和 = 0 的 一 个 特征 向 量 空间 。 

概括 起 来 ， 权 值 矩阵 有 两 个 特征 值 ，$ 和 0。 特 征 值 $ 的 特征 向 量 空间 是 由 原型 网 量 所 
决定 的 。 特 征 值 0 的 特征 向 量 空间 是 原型 向 量 所 生成 的 空间 的 正 交 补 集 。 

既然 高 增益 的 Lyapunov 函数 V 的 赫 森 矩阵 是 

V?V =-W (18.76) 
PAV ?V 的 特征 值 就 是 - SA 0。 | 

高 增益 的 Lyapunov 函数 是 一 个 二 次 函数 。 因 而 ， 赫 森 和 矩阵 的 特征 值 就 决定 了 它 的 形状 。 
因为 第 一 个 特征 值 是 负 值 ，Y 在 X 中 将 有 一 负 曲 率 。 又 由 于 第 二 个 特征 值 是 0，V ÉX p 
将 有 零 曲率 。 

这 些 结果 对 Hopfield 网 络 的 响应 说 明了 什么 ?因为 了 在 艺 中 有 负 的 曲率 ，Hopfield 网 
络 的 轨迹 将 会 落 人 包含 在 蕊 中 的 超 立方 体 |a: -1<a <1 HAE. 

注意 ， 如 果 我 们 用 Hebb 规则 计算 权 值 矩阵 ， 对 每 一 个 原型 向 量 来 说 ，Lvapunov HAS 
少 有 两 个 极 小 值 。 如 果 p 是 个 原型 向 量 ,那么 - p, 将 也 在 由 原型 向 量 所 生成 的 空间 里 。 因 
此 ， 每 个 原型 向 量 的 负 值 将 是 包含 在 中 的 超 立 方 体 {a: -1< a;<11 的 一 个 角 。 队 此 之 
外 ， 还 有 一 些 不 与 原型 模式 对 应 的 Lyapunov 函数 的 极 小 值 。 

伪 模 式 v 的 极 小 值 在 包含 在 X 中 的 超 立方 体 ia: - 1< ai<l1i 的 角 上 。 这 些 不 仅 包含 
原型 模式 ， 而 且 也 包含 它们 的 菜 些 线 性 组 合 。 那 些 不 是 原型 模式 的 极 小 值 通 常 称 为 伪 模 式 。 
Hopfield 网 络 设计 的 目标 就 是 使 伪 模 式 的 数目 减 到 最 小 并 把 每 一 个 原型 模式 的 吸引 区 尽 可 能 
地 扩大 。[ LiMi89] 中 描述 了 一 种 保证 达到 最 少 伪 模 式 的 设计 方法 。 

为 了 解释 这 些 原理 ， 再 次 考虑 我 们 曾经 讨论 过 的 二 阶 和 矩阵 的 例子 ， 在 这 个 例 忆 中 连接 矩阵 为 


w= | | (18.77) 
1 0 


假设 用 Hebb 规则 设计 并 只 有 一 个 原型 模式 (显然 是 一 个 没有 实际 应 用 意义 的 例子 ，) 
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(18.79) 
(18.80) 
(18.81) 
(18.82) 
(18.83) 
(18.84) 
(18.85) 
(18.86) 


à = 0 





a’ Wa 


见 下 一 小 节 。 
图 18-10 Lyapunov 函数 实例 


这 个 曲面 有 一 个 从 左上 角 到 右 下 角 的 直 凸 起 。 这 表示 X+ 曲 率 为 0 的 区 域 。 初 始 条 件 是 


详细 情况 
MENA RMR EARN 


V (a) = 一 5 


Zo 


© 


D 
个 特征 向 量 代表 第 一 个 特征 向 量 的 正 交 补 : 


m=, 
mi 





与 我 们 的 初始 连接 和 矩阵 对 
高 增益 的 Lyapunov 函数 是 
V (a) aR aR A 
它 的 特征 值 为 
相应 的 特征 癌 量 为 
与 特征 值 - S 对 应 的 第 一 个 特征 向 量 代表 着 由 原型 向 量 生成 的 空间 
与 特征 值 0 对 应 的 第 
Lyapunov pai eX UH 18-10 所 


注 总 


ABA 


| 18-21! 


(18.87) 
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如 果 初 始 条 件 是 恰 在 凸 起 上 ， 那 么 网 络 就 会 稳定 在 开始 处 。 情 况 就 像 我 们 原来 的 例子 (参见 
图 18-9)， 只 不 过 在 那 种 情况 下 ， 在 斜 的 凸 起 上 的 初始 点 最 终 收 全 于 原 操 ， 而 不 是 稳定 在 开 
始 的 地 方 (参见 图 18-6)。 无 论 初始 点 在 凸 起 的 左边 或 右边 ， 在 两 个 系统 中 都 会 收敛 于 原型 
设计 点 。 因 此 ， 我 们 最 初 讨论 的 那个 系统 与 用 零 对 角 线 元 素 的 系统 在 每 一 个 重要 方面 其 收 合 
情况 是 一 致 的 。 在 下 一 小 节 ， 我 们 将 进一步 考察 这 一 点 。 3 

3. Lyapunov 曲面 o 

在 Hopfield 网 络 的 很 多 讨论 中 ， 权 值 矩 阵 的 对 角 线 元 素 被 设 为 0。 在 这 -一 小 六 中 我 们 将 
分 析 这 样 的 运算 对 Lyapunov 曲面 的 影响 。( 可 参见 第 7 章 习 题 E7.5。) 

对 于 按 内 容 寻 址 的 存储 器 网 络 来 说 ， 所 有 的 权 值 矩阵 对 角 线 元 素 都 为 0( 原 型 模式 的 个 
数 ) ， 因 为 p 中 的 每 个 元 素 都 为 + 1。 因 此 ， 我 们 可 以 通过 减 去 @ 与 单位 矩阵 的 乘积 把 对 角 
RTC IA 0: 

W =- W- OI (18.88) 
让 我 们 考查 一 下 这 种 变换 对 Lyapunov 函数 有 何 影 响 。 如 果 把 这 个 新 的 权 值 矩阵 乘 以 一 个 原 
型 问 量 ， 求 得 : 
Wp, = [W- QIljp, = Sp, - Op, = (S - Q)p, (18.89) 
因此 ，($ - 0) 是 WW 的 特征 值 。 相 应 的 特征 向 量 空间 是 由 原型 向 量 所 生成 的 式 。 

如 果 把 这 个 新 的 权 值 矩 阵 乘 以 来 自 工 正 交 补 集中 的 向 量 a(aE X+), RG 

Wa=[W- QI]a = 0- Qa =- Qa (18.90) 
因此 ，- 0 是 W 的 特征 值 ， 相 应 的 特征 向 量 空间 是 X. 

概括 起 来 说 ，W 中 的 特征 向 量 和 W 中 的 特征 问 量 是 一 样 的 ， 不 同 的 是 W 的 特征 值 为 
(S- 0) 和 - 0, 而 不 是 S$ 和 0。 因 此 ,修改 后 的 Lyapunov 函数 VY *V (a) = -- W ARR 
的 特征 值 为 -(S- 0) 和 0。 

这 就 暗示 着 能 量 曲 面 在 X 中 有 人 负 的 曲率 而 在 X- 有 正 的 曲率 。 与 原来 的 Lyapunov K 
形成 对 照 ， 它 在 X 中 有 负 的 曲率 ， 在 X- 中 曲率 为 0。 

比较 图 18-9 和 图 18-10， 可 以 发 现 把 权 值 矩阵 对 角 线 元 素 设 为 0 对 Lyapunov RACH 
响 。 在 系统 性 能 方面 ， 这 种 改变 只 有 很 小 的 影响 。 如 果 把 Hopfield 网 络 的 初始 条 件 设 在 离开 
直线 a= - a, 的 任何 一 处 ， 在 两 种 情况 下 ， 网 络 的 输出 最 终 都 会 收敛 于 超 立方 体 |a: -1< 
a <1i 的 一 个 角 上 ， 这 个 超 立 方 体 包含 两 个 点 a=[1 17 和 a=[-1 -1]". 

如 果 初 始 条 件 恰好 落 在 直线 a = - a 上 ， 且 使 用 权 值 矩 值 W， 那 么 网 络 的 输出 将 保持 
为 常数 。 如 果 初 始 条 件 怡 好 落 在 直线 ci = -a 上 ， 但 是 使 用 权 值 矩阵 W ， 那 么 网 络 的 输出 
收敛 到 在 原点 处 的 鞍点 上 (如 图 18-16 所 示 )。 既 然 网 络 的 输出 不 收敛 于 Lyapunov RAH 
小 值 ， 这 些 结果 就 没有 用 。 当 然 只 有 初始 条 件 恰好 落 在 直线 al = -a 上， 网络 才 可 能 收敛 
于 一 个 鞍点 ， 在 实际 上 这 几乎 是 不 可 能 的 。 


18.3 小 结 


Hopfield 模型 


d -—n(t) + Wa(t) +b 
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a(t) = f(n(t)) 
输入 递归 层 





N 

SxS 

ony - D Sxi Sx 
S 














5 Sx 1 
Sey J 
n(0) =f (p), (a(0)=p) €dn/dt= -n+ Wf(n) + b 
Lyapunov 函数 
V(a) =- >a" Wa + ya {|p Cu)du}- b'a 
d f dpp da;\* 
qV (8) =- eD (gals '(a;)1}| ai) 
MR Ia] > 0, WEVA <0 
不 变 集 
不 变 集 由 平衡 点 组 成 : 
L = Z = iada/dt = 0，a 属 于 6 的 闭 包 |} 
Hopfield 吸引 子 
平衡 点 是 静止 点 : 
如 果 d = 0， 则 YY(a) = 0 
VV(a) = [- Wa +n- b] =~ e| 9M 
高 增益 的 Lyapunov 函数 
V(a) =- 5a" Wa - b'a 
V V(a) =- W 
ASAI hae 


W = > p (p,)? Alb = 0 


能 量 曲面 ( 正 交 原型 模式 ) 
V?V(a) =- 允 的 特征 回 量 是 : 
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A, = - S, 对 应 特征 同 量 空间 X = span{p ppo! 
A. = 0， 对 应 特征 向 量 空间 X- 
(X 定义 为 ,对 任意 向 量 aE X-,(p) a=0,9q= 1,2,°7,Q) 
轨迹 ( 正 交 原型 模式 ) 


因为 第 一 个 特征 值 是 负 的 ，V(a) 在 X 中 有 人 负 曲 率 。 又 因为 第 二 个 特征 值 为 0，V(a) 在 
X~- 中 有 0 曲率。 因为 Y(a) 在 X PARAS, Hopfield 网 络 的 轨迹 会 落 入 包含 在 X 中 的 超 


立方 体 {a: -1<a.<1i 的 角 上 。 18-25 


18.4 例题 
P18.1 假设 有 二 进 制 原 型 向 量 


本 | ip RFJ] 
ad -1 
(i) 定义 一 个 连续 型 的 Hopfield 网 络 (指定 连接 权 值 ) 来 识别 这 些 模式 ， 使 用 Hebb 规 
HI. 
(ii) 求 这 个 网 络 的 高 增益 Lyapunov 孙 数 的 赫 森 矩阵 ， 其 特征 值 和 特征 问 量 是 什么 ? 
(iii) 假设 增益 很 大 ，Hopfield 网 络 的 平衡 点 是 什么 ? 


解 
(i) 首先 使 用 有 监督 的 Hebb 规则 ， 从 参考 向 量 中 计算 权 值 矩阵 。 
1 1 -1 -1] [1 -1 1 -i 
1 1 -1 -1 -i 1 -i 1 
W=p@) +pp) =] 1 1 atli -1 1 -1 
-Z1 -1 1 1 -1 1 -1 1 
化 简 得 


-2 0 0 2 


(ii) 由 式 (18.54) 高 增益 的 Lyapunov 函数 的 赫 森 和 矩阵 是 权 值 矩阵 的 人 负 值 : 
-2 0 0 -2 
0 -2 2 0 


0 2 -2 0 
2 0 0 -2 


原型 模式 是 正 交 的 ([p,] 7p, = 0)， 所 以 特征 值 为 A = -S= -4 和 =0。 对 应 = -4 
的 特征 向量 空间 为 


V*V(a) = 


X = spani p; ,Pp, | 
对 应 Ay = O 的 特征 空间 是 的 正 交 补 集 : 
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X+ = span 9 1 


] 
] Sl 
| 
1 
其 中 我 们 选 了 两 个 既 垂 直 于 p 又 垂直 于 p HB. 

(iii) REARS po p. -po ，- 记 ， 因 为 原型 模式 的 负 值 也 是 平衡 点 。 也 可 能 还 
有 其 他 平衡 点 ， 如 果 超 立方 体 其 他 的 角 span|p ，pj 中 。 超 立方 体 总 共有 2 = 16 个 角 ， 四 
个 角落 入 中， 四 个 角落 人 X+ 中 ， 其 他 的 角 部 分 在 X 中 部 分 在 4 二 中 。 

P18.2 考虑 一 个 具有 如 下 权 值 矩阵 和 偏 置 值 的 高 增益 Hopfield 网 络 : 


-1 -i Í 
i | 和 
(i) 描绘 这 个 网 络 的 高 增益 Lyapunov KAIHE R E 
(ii) 如 果 网 络 的 初始 条 件 为 [1 1 ， 网 络 将 收敛 于 何 处 ? 
解 


(i) 首先 考虑 高 增益 的 Lyapunov HA 


V(a) =- >a" Wa ~ bľa 


PRERE 
v2v(a) =- W5 | J 
下 一 步 ， 我 们 需要 计算 特征 值 和 特征 问 量 : 


IV?V (a) - All = inn | =)?-~2. 41-12 MA=2) 





L-A 


特征 值 为 A = 0 MA, = 2. 
现在 来 求 特征 回 量 。 对 于 入 = 0， 
[V?V (a) 一 à I]z = 0 


| 


[VV (a) 一 Ile = 0 


人 


因而 


同 理 ， 对 入 2 =2， 
因而 


所 以 项 


i r 
-5a Wa 


在 z; 方向 上 曲率 为 0, 在 2 方向 上 曲率 为 负 。 
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现在 来 说 明 线 性 项 。 首 先 画 出 没有 线性 项 的 轮廓 图 ， 如 图 18-11 Prax. 


1 


0.5 


= 
in 
ities 


yh 





图 18-11 没有 线性 项 的 轮廓 图 


| 


上 引起 一 个 负 的 斜率 。 因 而 所 有 的 地 方 都 会 向 L1 - 1)" Sa, ANA 18-12 所 示 。 


线性 项 会 在 方向 


| 18-28] 


4 
eC) 
oe 38 
A 
Sor oe 





aa 
T Ai: =i, 
~ Ls 


= 
ae 





18-12 包含 线性 项 的 轮廓 图 


(ii) 不 论 初 使 条 件 如 何 ， 所 有 的 轨迹 都 会 收敛 于 [1 - 1] 。 在 图 18-12 中 我 们 可 以 看 
出 能 量 函 数 仅 有 一 个 极 小 值 点 ， 它 位 于 [1 - 1]7 处 。( 记 住 网 络 的 输出 被 限制 在 超 立 方 体 


la: -l<a,<1}A.) 
P18.3 考虑 下 面 的 原型 问 量 ， 


ee 


(i) 设计 一 个 Hopfield 网 络 来 识别 这 两 个 模式 .。 
(ii) 求 高 增益 的 Lyapunov 函数 的 赫 森 矩阵 。 它 的 特征 值 和 特征 向量 是 什么 ? 18-29 
(ili) Hopfield 网 络 的 稳定 点 是 什么 (假定 网 络 具 有 很 大 的 增益 )? 吸引 区 是 什么 ? 


Civ) 网 络 对 模式 识别 的 效 末 如 何 ? 
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(i) 我 们 使 用 Hebb 规则 来 求 权 值 矩阵 ; 


1 1 1 -1 2 0 
W = pp)” + plp)” = | som ] | -| 


(ii) 高 增益 的 Lyapunov em ax Hy dh OR A te AY (Ee 8 (Ee 
i E  f-2 0 | 
vva) =-W=|~ D” 


TIR, AEA REE 


FEIEN 


s[i] eal’, 


或 者 任意 线性 组 合 。( 整 个 站“ 就 是 特征 值 和 = - 2 的 特征 向 量 空间 。) 
(iii) 在 第 8 章 我 们 知道 当 赫 森 矩阵 的 特性 值 相等 时 ， 轮 廓 线 将 是 环形 的 。 因 为 特征 值 
为 负 ， 所 以 函数 将 在 原点 有 惟一 的 一 个 极 大 值 。. 在 超 立方 体 {a: -1< ws<li 的 四 个 角 上 有 
18-30] 4 个 极 小 值 。 高 增益 的 Lyapunov 函数 如 图 18-13 示 。 
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图 18-13 ”例题 P18.3 的 高 增益 Lyapunov RR 


总 共有 9 个 静止 点 。 我 们 可 用 LaSalle 不 变性 定理 的 推论 来 证 明 原 点 处 的 极 大 值 吸引 区 
只 包含 原点 自己 。 因 此 它 不 是 一 个 稳定 的 平衡 点 。 鞍 点 的 吸引 区 为 直线 。( 例 如 ， 在 
- _ 1 0]7 处 的 鞍点 吸引 区 为 a1 的 负 轴 线 。) 超 立方 体 的 4 个 角 是 仅 有 二 维 吸引 区 的 吸引 子 。 
每 一 个 角 的 吸引 区 是 超 立方 体 的 相应 象限 。 图 18-14 显示 了 低 增益 的 Lyapunov 函数 (增益 系 
数 y= 1.4) 并 说 明 收敛 到 一 个 鞍点 和 一 个 极 小 值 的 情况 。 
(iv) 网 络 在 模式 识别 这 个 问题 上 做 得 并 不 十 分 好 。 它 不 仅 识别 两 个 原型 模式 ， 也 “ 识 
Tea) 别 " 出 超 立方 体 的 其 他 两 个 角 。 网 络 将 会 收敛 到 距 输 入 模式 最 近 的 一 个 角 ， 尽 管 我 们 只 想 让 


ww ai bbt. com DOOOUOd 


#18 È Hoptield 9% 419 






0 
| TE 


rF 






WY 
ae" 2 0 
NS a -= 
Sy x 
Rs 
NE SR 


| SBE 
we 4 2 ite S; es SN WS 
W, i 
< Se i > 
XX CD 





oN SS 
+ 





图 18-14 ”例题 P18.3 的 Lyapunov A% 


它 存 储 两 个 原型 模式 。 因 为 每 一 种 可 能 的 两 位 模式 都 被 存储 了 ， 所 以 网 络 并 非 十 分 有 用 。 这 

是 我 们 不 希望 出 现 的 ， 因 为 根据 Hebb 规则 ， 期 望 的 存储 模式 只 是 神经 元 数目 的 15%. BER 

我 们 只 有 两 个 神经 元 ， 所 以 不 希望 存储 许多 模式 。 习 题 E18 .2 提供 了 一 个 更 好 的 网 络 。 
P18.4 一 个 Hopfield 网 络 具 有 下 面 的 高 增益 Lyapunov R: 


V (a) 二 一 FMa) + l2a,a> 一 2( a>)*) 
(i) 求 权 值 矩阵 。 
(ii) 求 Lyapunov 函数 的 梯度 回 量 。 
(iii) 求 Lyapunov 函数 的 赫 森 矩阵 。 


Civ) HH Lyapunov PALA AA) 46 BR EI « 
(v) ME V(a) 在 初始 条 件 为 [0.25 0.25)" 时 使 用 最 速 下 降 算 法 所 经 过 的 路 径 。 


解 
(i) V (a) 是 一 个 二 次 函数 ， 可 重 写成 


7 6 
V (a) =z — a)? 十 1]2aia2 一 2(a>)*) = 一 Larl |a 


HA 

W = 

6 -2 

(ii) 因为 Y(a) 是 一 个 二 次 函数 ， 我 们 可 用 式 (8.38) 来 求 梯度 : 


7 6 
vra) -=-|。 oh 
(iti) 由 式 (8.39) ， 赫 森 和 矩阵 为 


因此 权 值 十 阵 古 


te) et _ 
vya =-| wel 2 
(iv) 下 面 计 算 特征 值 ; 
I 6 
Iv2v(a) -AIl = | a 6 -A2 4 5A — 50 = (À + 10). -= 5) 
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特征 值 为 Ay = 10 和 Àa S De 
REKEM. XT A, = - 10, 
V? V(a) 一 A, Lz, = 0 


3 -6 2 
| 


因此 


类 似 地 ， 对 4, = 5， 
VY“V(a) = YIIZ = 0 


因而 
D -6 


| 
_6 $a =o 或 n=| | 


注意 ， 这 是 一 个 有 鞍点 的 例子 ， 因 为 X41 <0< 2。 沿 着 五 HRAN, WE n ARNE, 
高 增益 的 Lyapunov AAE NE 18-15。 
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图 18-15 高 增益 Lyapunov ARAIRE F PEPA 


1833 ë (v) 最 速 下 降 路 径 沿 着 梯度 为 负 的 方向 并 与 轮廓 线 垂直 ， 就 像 在 第 9 章 所 见 到 的 一 样 。 
当 轨 迹 到 达 超 立方 体 的 边缘 时 ， 它 将 沿 着 边线 下 落 到 极 小 值 。 最 后 结案 见 图 18-15. 

高 增益 的 Lyapunov 函数 只 是 一 个 近似 ， 因 为 它 假设 有 无 限 大 的 增益 。 作 为 比较 ， 图 18- 
16 画 出 了 增益 系数 为 0.5 时 的 Lyapunov XA Hopfield 轨迹 。 
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图 18-16 Lyapunov Baa Hopfield 轨迹 
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P18.5 除了 作 按 内 容 寻 址 存储 器 外 ，Hopfield 网 络 还 用 在 其 他 应 用 中 。 其 一 是 用 于 模 数 
(A/D) 转 换 [ HoTa86j。 模 数 转换 器 的 功能 是 把 一 个 模拟 信号 y 转换 为 二 进 制 数 串 (0 和 1)。 
例如 ， 一 个 两 位 的 模 数 转换 器 能 把 模拟 信号 y 近似 为 


y = ws A a, + ar2 
其 中 a, Ma, 的 值 为 0 或 1。( 这 个 A/D 转换 器 把 模拟 信号 近似 在 0 到 3 的 范围 内 ， 分 辩 单 
位 为 1。)Tank 和 Hopfield 建议 采用 下 面 的 性 能 指数 来 进行 A/D eR: 
Ja) = Ht, _ Sa pli- 中 T 4 Zu ae hh i) 


其 中 第 一 项 表示 A/D 转换 误差 ， 第 一 项 迫使 ai, a, 取 值 为 0 或 1。 
证 明 这 个 性 能 指数 可 改写 为 Hopfield 网 络 的 Lyapunov 交 数 ， 并 定义 适当 的 权 值 矩阵 和 
MEANE, ee 
解 
第 一 步 是 对 性 能 指数 的 项 进行 展开 : 


Í < 2 2 
EE 92%?) 一 y’ ~2y >) al 4 2 2 
a i= |] jeliel 


| 51220-0 g(a, = D| i 51 (a, )? 20-0 _ SY 4220-0 
如 果 把 这 些 项 代 回 到 性 能 指数 中 ， 求 出 
J(a) = Hy + È Daa 1)+(i-1) 十 a, ( 22 1) _ pi y) 


第 一 项 不 是 a WRX, 因此 不 影响 极 修 值 出 现 的 位 置 ， 7 可 予以 忽略 。 
我 们 要 证 明 这 个 性 能 指数 采用 高 增益 的 Lyapunov RUZ: 


V(a) =- 5a"Wa - b'a 

如 来 
1 
2 


w-| | 和 b = 
2y -2 








即 为 所 求 。 
在 这 个 Hopfield 网 络 中 ， 不 像 按 内 容 寻 址 存储 器 ， 网 络 的 输入 是 标量 y， 它 被 用 来 计算 


偏 置 值 向 量 。 在 按 内容 寻 址 存储 器 中 ， 网 络 的 输入 是 向 量 模式 ， 它 成 为 网 络 输出 的 初始 条 


{F 
注意 ， 在 网 络 中 传输 函数 必须 把 输出 限制 在 0< a <1 WEA. — Al RAY fe R 


数 是 
f(n) <7 


18.5 结束 语 
本 章 我 们 介绍 了 Hopfield 模型 ， 这 是 一 种 最 有 影响 的 神经 网 络 结构 。Hopfield 之 所 以 有 
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重要 影响 的 一 个 原因 是 他 强调 网 络 的 实际 应 用 。 他 说 明 如 何 用 电路 的 形式 实现 网 络 。 在 早期 
曾 建 立 过 用 VLSI 实现 的 Hopfield 型 网 络 。 

Hopfield 还 解释 了 如 何 用 这 种 网 络 来 求解 模式 识别 和 最 优化 问题 。Hopfield 对 他 的 网 络 
提出 的 其 他 一 些 应 用 有 : 按 内 容 寻 址 存储 器 [Hopf82]，A/D 转换 [TaHo86] 以 及 线性 规划 和 
最 优化 ， 如 货 郎 担 问题 HoTa85 ] 。 

Hopfield 的 一 个 主要 贡献 是 用 Lyapunov 稳定 原理 来 分 析 他 的 网 络 。 他 同时 证 明 ， 对 于 
高 增益 的 放大 器 ， 他 的 网 络 的 Lyapunov 函数 是 一 个 可 由 网 络 最 小 化 的 二 次 也 数 。 这 就 导 至 
了 一 些 设计 过 程 。 设 计 的 思想 是 把 给 定 的 问题 转化 为 一 个 可 由 网 络 求解 的 二 次 也 数 最 小 值 问 
题 。 

Hopfield 网 络 是 本 书 中 讨论 的 最 后 一 种 网 络 。 然 而 ， 我 们 并 没有 讨论 完 所 有 重要 的 神经 

18-36| 网 络 结构 。 在 下 一 章 中 我 们 将 对 你 下 一 步 应 继续 研究 什么 主题 提出 一 些 看 法 。 
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这 是 最 初 提出 Hopfield 神经 网 络 的 论文 ， 它 标志 着 神经 网 络 领域 研究 工作 的 重新 
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兴起 。 文 章 描述 一 种 具有 按 内 容 寻 址 存储 器 性 能 的 断 续 型 网 络 。Hopfield 阐明 网 络 涉及 
对 特定 Lyapunov 函数 的 最 小 化 。 
.Hopf84 | J.J. Hopfield , “Neurons with graded response have collective computational proper- 
ties like those of two — state neurons, Proceedings of the National Academy of Sciences , 
vol. 81, pp. 3088 - 3092, 1984. 
Hopfield 展示 了 一 个 模拟 电路 可 以 作为 一 个 具有 分 级 啊 应 的 大 型 神经 网 络 的 一 个 功 
能 模型 。 推 导 了 这 个 网 络 的 Lyapunov 函数 并 用 于 设计 按 内 容 寻 址 联想 存储 器 的 网 络 。 
| HoTa85 | J. J. Hopfield and D. W. Tank, “ ‘Neural’ computation of decisions in optimization 
problems ,” Biological Cybernetics , vol. 52, pp. 141 - 154, 1985. 
这 篇 文章 描述 用 Hopfield WARRE. ARREA ( BB IT TA TIH 
之 间 而 每 个 城市 只 去 一 次 的 总 路 程 达 到 最 短 ) 被 映射 到 Hopfield 网 络 。 
| Koho72 | T. Kohonen, “Correlation matrix memories, ” IEEE Transactions on Computers, 
vol. 21 , pp. 353-359, 1972. 
Kohonen #24) T —#REK AG FF RSE KR IR, RR E RL C Hebb 
规则 同样 有 名 的 一 个 规则 ) 进 行 训练 ， 学 习 输 入 /输出 向 量 的 关联 。 他 主要 强调 网 络 的 
数学 结构 。 Anderson 也 同时 独立 发 表 了 类 似 的 论文 | Ande72 o 
[LiMi89] J. Li, A. N. Michel and W. Porod, “Analysis and synthesis of a class of neural net- 
works: Linear systems operating on a closed hypercube, ” IEEE Transactions on Circuits 


and Systems, vol. 36, no. 11 , pp. 1405 - 1422, November 1989. 


这 篇 文章 描述 可 在 一 个 闭合 的 超 立 方 体 (类 似 Hopfield 网 络 ) 中 由 一 阶 线性 微分 方 


程 定义 的 神经 网 络 。 预 期 的 和 无 用 的 平衡 点 落 在 超 立 方 体 的 角 上 。 作 者 们 讨论 了 使 伪 
平衡 点 数目 达到 最 小 的 设计 过 程 。 

. McPi43] W. McCulloch and W. Pitts, “A logical calculus of the ideas immanent in nervous ac- 
tivity,” Bulletin of Mathematical Biophysics., vol. 5, pp. 115 - 133, 1943. 

这 篇 文章 引信 了 神经 元 第 一 个 数学 模型 。 在 这 个 模型 中 ， 将 输入 信号 的 加 权 和 与 
某 个 阅 值 比较 ， 从 而 确定 神经 元 是 否 激发 。 

' TaHo86] D. W. Tank and J. J. Hopfiled, “Simple ‘neural’ optimization networks: An A/D 
converter, signal decision circuit and a linear programming circuit, [EEE Transactions on 
Circuits and Systems, vol. 33, no.5, pp. 533-541, 1986. 

作者 描述 了 如 何 设计 Hopfield 网 络 使 其 可 以 解决 特定 的 最 优化 问题 。 其 中 可 以 看 
到 一 个 将 Hopfield 网 络 应 用 到 模 / 数 转换 的 例子 。 
习题 
E18.1 在 18.2.2 节 我 们 举 的 例子 中 ， 增 益 系 数 Y=1.4。 图 18-3 显示 了 那个 例子 的 
Lyapunov 函数 。 高 增益 的 Lyapunov pea AL E 18-9, 
(i) 证 明 这 个 例子 中 Lyapunov 函数 的 极 小 值 位 于 满足 n = n2 ag nı) = f( na) 
的 那些 点 。( 用 式 (18.42) 并 把 Y(a) 的 梯度 议 为 0。) 
(ii) 研究 从 Y=0.1 Bl y= 10 时 极 小 值 位 置 的 变化 。 
(iii) 对 这 个 区 间 内 的 几 个 不 同 增益 系数 画 出 轮廓 图 。 你 可 能 需要 使 月 MATLAB. 
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E18.2 在 例题 P18.3 中 ， 我 们 使 用 有 监督 的 Hebb 规则 设计 Hopfield 网 络 来 识别 下 面 的 


E18.3 


E18.4 


模式 : 


mm 


如 果 我 们 使 用 另外 一 个 设计 规则 [LiMing]， 将 得 到 下 面 的 芭 值 息 阵 和 侦 置 值 : 


wo 


(Ci) 假设 使 用 这 个 权 值 矩阵 和 偏 置 值 ， 画 出 高 增益 的 Lyapunov RRE R ERA 

(ii) 讨论 这 个 Hopfield 网 络 与 例题 P18.3 中 设计 的 网 络 之 间 的 性 能 差别 。 

(iii) 写 一 个 MATLAB M- 文 件 来 刺激 Hopfield 网 络 。 使 用 ode45 PITH. M 
出 这 个 网 络 对 于 几 个 不 同 初 始 条 件 的 啊 应 图 。 

一 个 Hopfield 网 络 具 有 如 下 高 增益 Lyapunov pI AY : 


V(a) =- 5 ((a1)? + 2aja, + 4( a>)? + 6a; + 10a2) 


(i) 求 权 值 算 阵 与 偏 置 值 同 量 。 

(ii) KR Vid HRESMRAE. 

(iii) Hi Vid He RAE. 

(iv) $ V(a) 的 静止 点 。 使 用 LaSalle 不 变性 定理 的 推论 获取 任 一 稳定 点 吸引 区 
的 尽 可 能 多 的 信息 。 

在 例题 P18.2 中 我 们 展示 了 Hopfield 网 络 可 用 来 作 A/D FRA 

(i) 设 输 入 值 y=0.5， 画 出 2 位 A/D 转换 器 网 络 的 高 增益 Lyapunov AAR YE 
廊 线 图 。 

(ii) 设 y =2.5， 重 复 第 (i) 小 题 。 

Gii) 用 (和 (这 小 题 的 结果 来 解释 网 络 是 如 何 运算 的 。 网 络 可 以 正确 地 进行 A/ 
D 转换 吗 ? 


E18.5 假设 二 进 制 的 原型 问 量 为 


E18 .6 


=] al 

(i) 设计 一 个 连续 的 Hopfield 网 络 ( 只 指定 连接 权 值 与 偏 置 值 ) 来 识别 这 些 模 式 。 
使 用 Hebb 规则 。 

(ii) 求 高 增益 Lyapunov 函数 的 赫 森 矩阵。 其 特征 值 和 特征 向 量 是 什么 ? 
(iii) 假设 增益 系数 很 大 ， 网 络 的 稳定 平衡 点 是 什么 ? 
在 习题 E7.7 中 我 们 曾经 问 过 这 样 一 个 问题 : 一 个 权 值 矩阵 可 以 存储 多 少 原型 模 
R? 在 Hopfield MA PHAR HA. FRA TRS ORNL”. (FIA 
18-17 所 示 。) 每 次 增加 一 个 数字 直到 “6”。 在 每 次 随机 改变 2 个 、4 个 和 6 个 象 素 
后 ,测试 一 下 网 络 对 重 构 数字 的 正确 识别 率 。 
(i) 首先 使 用 Hebb 规则 为 数字 “0” 和 “1” 建 立 一 个 权 值 矩阵 。 然 后 每 个 数字 随 
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机 更 改 两 个 象 素 点 ， 并 加 入 噪声 数字 。 重 复 这 个 过 程 10 次 并 记录 正确 模 
式 ( 不 含 噪声 ) 的 出 现 率 。 每 个 数字 改变 4 个 象 素 和 6 个 象 素 后 重复 上 述 过 
程 。 然 后 使 用 数字 “0”,“1” 和 "2" 重 复 整 个 过 程 。 每 次 一 个 数字 ， 继 续 下 
去 直至 数字 “0” 到 “6” 都 被 使 用 过 。 当 你 完成 了 整个 测试 后 ， 画 出 错 旋 次 数 
对 存储 数字 数目 百分比 的 三 条 曲线 ， 对 于 2 个 、4 个 和 6 个 象 素 错误 各 有 
一 条 曲线 。 
(ii) 使 用 伪 逆 规则 ( 见 第 7 章 ) 重 复 ( i ) 小 题 ， 并 比较 两 种 规则 的 结果 。 
(i 让) 为 了 佐证 使 用 [LiMi89] 中 描述 的 方法 ， BR). ERIE, ER 
称 为 合成 过 程 5.1。 
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Pr. ` 

BIS 结 R 语 
19.1 目的 

我 们 已 经 讨论 了 多 种 重要 的 神经 网 络 结构 和 学 习 规 则 ， 也 解释 了 如 何 将 它们 应 用 于 模式 
识别 ， 函 数 逼 近 ， 自 适应 滤波 等 应 用 方面 。 当 然 ， 在 一 本 书 中 不 可 能 对 每 一 种 重要 的 神经 网 
络 都 进行 很 深 地 讨论 。 神 经 网 络 是 一 个 相当 广阔 而 又 发 展 很 快 的 领域 。 

本 章 将 告诉 你 下 一 步 还 需 研 究 一 些 什么 。 我 们 将 讨论 本 书 中 没有 具体 介绍 的 一 些 网 络 ， 
同时 也 为 你 进一步 阅读 提供 了 一 些 参考 文献 。 


19.2 ”理论 和 实例 
第 3 章 粗略 地 介绍 了 本 书 中 所 讲述 的 主要 网 络 。 回 忆 一 下 ， 第 3 章 提供 了 三 种 神经 网 络 


“并 把 它们 应 用 到 一 个 简单 的 模式 识别 问题 上 。 这 三 种 网 络 分 别 是 感知 机 、Hamming 网 络 和 


Hopfield 网 络 。 感 知 机 是 一 种 前 馈 网 络 ， 后 来 我 们 又 把 它 推广 到 多 层 感 知 机 网 络 。 在 第 4~7 
BRS 10 ~ 12 章 中 我 们 讨论 了 前 馈 网 络 (感知 机 ， 线 性 联想 器 ， 自 适应 线性 神经 元 ， 多 层 感 
ADL) 。 Hamming 网 络 是 一 种 竞争 网 络 。 在 第 14 ~ 16 章 我 们 提供 了 几 种 竞争 网 络 ( Kohonen 
层 ， 目 组 织 特 征 图 ， 学 习 向 量 量化 器 ，Grossberg 网 络 ，ART 网 络 )。 Hopfield 网 络 是 动态 联 
想 存 储 器 网 络 的 一 个 例子 。 第 18 章 讲述 了 连续 型 的 Hopfield 网 络 。 

本 章 中 我 们 讨论 一 下 前 几 章 没有 详细 讲述 的 一 些 其 他 神经 网 络 。 这 些 网 络 和 我 们 所 讲 过 
的 网 络 有 关 ， 它 们 也 归 人 第 3 章 提 出 的 三 类 网 络 一 前 馈 网 络 、 竞 争 网 络 和 动态 联想 存储 器 网 
络 。 我 们 将 提供 一 些 属于 这 三 种 范畴 的 其 他 网 络 。 

除了 讲述 当前 神经 网 络 的 研究 ， 我 们 还 将 探讨 神经 网 络 的 经 典 基础 ， 在 前 几 章 ， 我 们 描 
述 了 在 线性 代数 、 最 优化 和 稳定 性 理论 中 对 神经 网 络 有 贡献 的 一 些 原理 ， 本 章 我 们 要 指出 对 
这 一 领域 提供 了 概念 和 算法 的 某 些 其 他 学 科 。 

本 章 最 后 一 节 列 出 了 当前 一 些 神经 网 络 林 志和 书籍 ， 以 供 进一步 深入 学 习 使 用 。 

本 章 其 余部 分 讨论 的 网 络 深奥 难 懂 ， 而 且 妈 使 它们 完成 了 ， 很 快 也 会 过 时 。 然 而 我 们 希 
诅 这 些 网 络 能 使 你 对 这 个 领域 的 广度 有 所 了 解 ， 并 为 你 继续 深入 研究 网 络 提供 一 个 起 点 。 


19.2.1 前 个 和 联想 网 络 


1. 径 向 基本 网 络 
首先 在 求解 多 实 变量 插值 问题 时 引信 径 向 基本 网 络 。 答 向 基本 函数 (RBF) 网 络 由 两 层 组 


成 。 这 是 典型 的 多 层 网 络 ， 第 一 层 的 神经 元 不 使 用 输入 值 的 加 权 和 及 S RRR. HR, 
第 一 层 神经 元 的 输出 (每 一 个 表示 基本 了 蚂 数 ) 由 网 络 的 输入 与 基 申 数 “ 中 心 ” 的 距离 决定 。 随 着 
输入 离 中 心 的 距离 的 增 大 ， 神 经 元 的 输出 玉 速 减 至 零 。RBF 网 络 的 第 二 层 是 线性 的 ， 它 产 
生 第 一 层 输出 的 加 权 和 。RBF 网 络 具有 局 部 化 接收 域 ， 因 为 神经 元 只 对 接近 中 心 的 输入 有 
响应 。 这 同 标准 多 层 网 络 形成 对 照 。 标 准 多 层 网 络 使 用 S 型 函数 建立 全 局 响应 。RBF 比 多 
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层 感 知 机 的 训练 要 快 ， 但 是 对 高 维 输入 空间 来 说 ， 需 要 很 多 神经 元 [Power87]、[BrLo88j、 
| MoDa89 ] | PoGi90!. 

2 .CMAC (小 脑 模 型 连接 控制 器 ) 

与 RBF 一 样 ，CMAC 网 络 使 用 具有 局 部 化 接收 域 的 隐 含 单元 。 这 使 学 习 更 有 效 。 
CMAC 由 Albus(1971) 从 小 脑 模 型 发 展 来 的 。 他 把 网 络 应 用 于 机 械 手 的 控制 。CMAC 的 原始 
过 程 是 由 表 查 找 过 程 实现 的 LAlbu71j、LAlbu75S |。 

3. 多 项 式 网 络 

在 第 3、4 章 和 第 10 章 我 们 讨论 了 单 层 网 络 的 局 限 。 它 们 只 能 用 来 识别 线性 可 分 的 模 
式 。 在 第 11 章 我 们 可 用 多 层 网 络 来 克服 这 种 局 限 。 多 层 网 络 可 实现 任 一 形状 区 域 的 识别 。 
这 个 问题 的 男 一 种 解决 方案 是 只 用 一 层 但 采用 不 同 的 神经 元 。 神 经 元 不 仅 可 计算 输入 值 的 线 
性 组 合 ， 并 可 计算 更 复杂 的 函数 如 多 项 式 。 下 面 就 是 多 项 式 网 络 的 一 个 例子 。 

函数 链接 网 络 ”函数 链接 网 络 的 神经 元 接收 标准 输入 元 素 的 线性 组 合 加 上 一 个 高 次 项 。 
高 次 项 包括 不 同 输入 元 素 乘积 的 各 种 组 合 。 

数据 处 理 的 成 组 方法 (GMDH) ”数据 处 理 的 成 组 方法 (GMDH) 由 A. G. Ivakhnenko 于 
1968 提出 。 网 络 中 每 个 神经 元 只 有 两 个 输入 。 每 个 神经 元 的 输出 是 两 个 输入 的 二 次 多 项 组 
合 。 网 络 的 每 一 层 增 加 网 络 创建 的 多 项 式 次 数 | Ivak71 J. 

Sigma - Pi 网 络 ”这 个 网 络 是 多 层 感 知 机 网 络 的 推广 。 它 将 乘积 项 结合 到 每 一 个 神经 元 
的 净 输 入 上 。 每 一 个 净 输 入 是 加 在 那个 神经 元 上 所 有 信和 号 的 加 权 和 ， 以 及 选 定 的 这 些 信 和 号 积 
的 加 权 和 [RuMec86]、| HeNo95 |. 

4. 模块 化 网 络 

这 个 网 络 是 具有 局 部 接收 域 网 络 ( 如 RBF 与 CMAC) 和 全 局 网 络 ( 如 多 层 感知 机 ) 之 间 的 
一 种 折衷 。 它 由 一 系列 专家 网 络 构成 ， 其 中 每 一 个 都 可 以 是 多 层 网 络 ， 再 加 一 -个 门 控 网 络 ， 
后 者 把 专家 网 络 的 输出 汇总 成 整体 输出 [JaJo91a]、[JaJo91bj。 

5, 自 适 应 评价 网 络 

基本 的 自 适应 评价 系统 通常 用 于 控制 系统 。 它 由 两 个 网 络 构 成 : 评价 网 络 和 行动 网 络 。 
评价 网 络 的 目的 是 用 来 估计 缺乏 真实 错误 测量 情况 下 系统 的 性 能 。 行 动 网 络 用 来 更 新 来 自 评 
价 网 络 的 信息 。 系 统 使 用 介 于 有 监督 和 无 监督 之 间 的 一 种 强化 学 习 规则 来 训练 。 系 统 虽 不 使 
用 目标 输出 ， 但 是 接收 增强 信号 ， 如 “成 功 ” 或 “失败 ”[BaSu83]、|[ Sutt84j。 

6. 反 传 网 络 的 变形 

除 第 12 音 谈 到 的 外 ， 反 传 网 络 还 有 许多 变形 。 这 可 能 是 自 1986 年 以 来 神经 网 络 研究 最 
活跃 的 一 个 领域 。 下 面 我 们 讨论 一 些 较 成 功 的 反 传 网 络 的 变形 。 

Quickprop 过 程 Quickprop 是 反 传 的 一 种 启发 式 修改 。 通 过 假设 错误 曲面 是 二 次 的 和 

一 个 权 值 的 导数 独立 于 其 他 权 值 的 导数 决定 步 长 。 
”Rprop 过 程 ” 当 净 输入 的 大 小 太 大 时 ，S 型 函数 的 导数 太 小 了 。 设 计 Rprop 过 程 就 是 为 
了 克服 这 个 问题 。 这 可 能 引起 性 能 指数 梯度 变 小 ， 即 使 离 极 小 值 点 很 远 。 最 速 下 降 法 产生 很 
小 的 步 长 。 在 Rprop 中 ， 步 长 不 是 梯度 大 小 的 函数 。 如 果 一 个 给 定 权 的 导数 符 导 在 几 次 迁 代 
中 都 不 变 ， 则 步 长 增 大 。 如 果 导 数 符号 不 断 地 摆动 ， 则 步 长 减 小 。 

级 联 相关 ”级 联 相关 学 习 结构 (Fahiman 和 Lebiere，1990) 是 网 络 增长 过 程 的 一 个 例子 。 
开始 时 没有 隐藏 结 点 ， 并 可 用 LMS 算法 训练 。 网 络 一 次 增加 一 个 隐藏 结 点 。 每 个 隐藏 结 扣 
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网 络 修剪 ”如 第 11 章 所 述 ， 神 经 网 络 训练 的 一 个 问题 是 缺乏 一 舰 化， 如 果 网 络 有 过 多 
的 参数 ， 它 可 能 会 对 数据 适合 过 度 了 。 当 数据 在 训练 集合 中 时 ， 错 误 可 能 变 得 很 小 ; 反之 ， 
当 数 据 在 训练 集合 之 外 时 ， 则 错误 很 大 。 网 络 一 般 化 的 方法 之 一 是 减少 参数 。 网 络 修 前 是 在 
网 络 训 练 后 ， 去 掉 一 些 权 值 。 例 子 有 最 住 脑 损坏 [LeDe901 和 最 佳 脑 手 太 | HaSst93 J. 

规则 化 ” 另 一 种 解决 网 络 过 度 适 合 的 方法 是 对 性 能 指数 增加 一 项 ， 加 大 复杂 性 。 换 名 话 
说 ， 修 改 后 的 性 能 指数 包含 两 部 分 ， 一 部 分 是 误差 平方 的 图 数 ， 而 另 一 -部 分 是 网 络 参 数 数目 
(或 它们 的 大 小 ) 的 函数 。 训 练 过 程 试 贸 用 最 不 复杂 的 网 络 来 使 误差 平方 达到 最 小 值 。 有 两 个 
规则 化 的 例子 : 权 值 减 小 过 程 [ Hinto89] 和 权 值 消除 方法 [WeRu91l ]。 

停止 训练 ”这 个 过 程 和 规则 化 一 样 是 用 来 使 训练 网 络 更 一 般 化 。 其 思想 是 把 数据 分 为 二 
个 部 分 : 训练 集 、 确 认 集 和 测试 集 。 训 练 集 用 来 计算 梯度 和 决定 权 值 更 新 。 确 认 集 用 来 判断 
什么 时 候 应 停止 训练 。 测 试 集 是 用 来 比较 不 同 网 络 的 性 能 。 当 确认 集中 误差 开始 增加 时 ， 训 
练 即 停止 。 这 使 网 络 不 会 在 训练 集中 过 度 适 合 L Sarl95 |. 

7. 概率 神经 网 络 

概率 神经 网 络 (PNN ) 是 一 种 标准 的 贝 叶 斯 分 类 器 的 一 种 并 行 实现 。 它 是 一 个 可 用 来 把 
模式 分 类 的 三 层 网 络 。 概 率 神 经 网 络 的 标准 形式 是 不 进行 训练 的 。 与 Hamming 网 络 的 方式 
相似 ， 训 练 向 量 仅 变 为 第 一 层 的 权 值 向 量 。 这 种 网 络 的 优势 在 于 不 用 训练 。 但 也 有 不 利之 
处 ， 当 训练 集中 的 向 量 很 多 时 ， 权 值 和 矩阵 可 能 非常 大 。 如 果 训 练 集 太 大 ， 了 驶 要 进行 一 个 聚 类 
运算 来 减少 大 小 [1Spec90j。 

8. 广义 回归 神经 网 络 

与 PNN 一 样 , 广义 回归 神经 网 络 (GRNN) 也 不 需要 重复 训练 过 程 。PNN 用 于 分 类 问 
题 ， 而 GRNN 则 用 于 连续 变量 的 估计 ,就 如 标准 回归 技术 一 样 。 它 与 径 疝 基本 孙 数 网 络 和 
CMAC 有 关系 。 它 建立 在 称 为 核心 回归 的 标准 统计 技术 上 的 。 

9. 具有 时 间 延 迟 的 多 层 网 络 

多 层 前 馈 网 络 可 以 通 近 任何 Borel 可 积 函数 ， 但 不 能 加 入 时 间 独 立 性 。 为 此 ， 一 些 研究 
人 员 提 出 了 把 多 层 感 知 机 和 时 间 延 迟 结合 起 来 的 网 络 ， 其 中 有 些 包 括 反馈 连接 。 

时 间 延 时 神经 网 络 ”时 间 延 时 神经 网 络 (TDNN) 是 一 个 多 层 前 馈 网 络 。 每 一 层 的 输出 分 
几 步 存 人 缓冲 区 ， 然 后 再 整个 连 人 下 一 层 。 它 主要 应 用 于 语音 识别 [LaHi88j、[ WaHa89j]。 

有 限 刺 激 响 应 多 层 感知 机 有限 刺激 响应 (FIR) 多 层 感知 机 是 TDNN 的 推广 。FIR 网 络 
是 一 个 多 层 网 络 ， 每 一 个 权 值 被 一 个 有 限 刺 激 响应 滤波 器 代替 。 这 个 网 络 首 先 被 应 用 于 时 间 
序列 的 预测 [Wan90a]、[ Wan90b]. [ Wan94 |j。 

管道 式 递 归 神 经 网 络 ”管道 式 递归 神经 网 络 (PPRN ) 由 一 组 模块 构成 。 每 一 个 模块 接收 
适当 延迟 的 输入 信号。 每 一 个 模块 是 一 个 全 连结 的 递归 神经 网 络 ， 具 有 一 个 单 输出 神经 元 。 
这 些 模块 按 顺 序 运 算 ， 一 个 模块 的 输出 馈 给 后 面 的 模块 。PPRN 比 TDNN 和 FIR 网 络 更 复 
杂 。 因 为 它 同 时 有 前 馈 和 反馈 (递归 ) 连 接 ， 因 而 有 无 限 大 的 存储 空间 。 然 而 ， 网 络 的 模块 化 
能 使 训练 更 有 效 。PPRN 用 于 非 静 态 信和 号 的 自 适 应 预测 [ HaLi95 J. 

非 线 性 自 回归 移动 平均 网 络 ” 非 线 性 自 回 归 移 动 平 均 (NARMA) 网 络 是 建立 在 使 用 时 序 
分 析 和 系统 识别 的 ARMA 模型 基础 上 的 。 它 包含 带 两 输入 集合 的 多 层 网 络 。 第 一 个 集合 包 
括 输 入 信和 号 和 输入 信和 号 的 延迟 值 。 第 二 个 集合 包括 网 络 输出 的 延迟 值 。 这 个 系统 用 于 动态 系 
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统 的 识别 和 控制 以 及 时 间 序 列 的 预测 | NaPa901。 

Elman 网 络 Elman 网 络 是 一 个 两 层 的 网 络 ， 具 有 从 隐藏 层 输出 到 它 的 输入 的 反馈 连 
接 。 反 馈 路 径 使 Elman 网 络 能 学 习 识 别 和 产生 瞬时 模式 和 空间 模式 [Elma90 . 。 

实时 递归 网 络 ”实时 递归 网 络 (RTRN ) 的 结构 与 离散 Hopfield 网 络 相 似 ， 只 是 它 含 有 隐 
藏 神经 元 。RTRN AE: 隐藏 层 和 输出 层 。 每 层 都 接收 两 组 输入 。 第 一 组 是 所 有 神经 元 
(包含 隐 含 屋 和 输出 层 神 经 元 ) 输 出 的 延迟 值 。 第 二 组 是 外 部 输入 信和 叶 。RTRN 加 上 相应 的 
学 习 规则 可 以 连续 地 运行 和 进行 实时 学 习 。 不 过 这 也 有 不 利之 处 ， 因 为 它 是 全 连接 的 ， 所 以 
需要 很 多 神经 元 和 过 多 的 计算 [WiZi891。 

10, 带 延 迟 的 多 层 网 络 训练 

前 一 小 节 所 述 的 多 层 网 络 及 其 他 动态 网 络 ， 由 于 时 间 依 赖 性 而 不 能 用 标准 反 传 算法 进行 
正常 训练 。 它 们 需要 用 动态 反 传 算法 。 动 态 反 传 有 两 种 基本 结构 。 一 种 是 沿 时 间 前 进 ， 帮 一 
种 则 沿 时 间 后 退 。 

HERE ”动态 网 络 的 沿 时 间 反 传 (BTT) 算 法 是 静态 网 络 反 传 算法 的 六 展 。 它 是 通过 
时 间 方 向 前 展开 网 络 而 导出 的 多 层 反馈 网 络 ， 每 一 个 时 间 步 产生 一 层 。 反 传 过 程 能 有 效 地 六 
时 间 后 移 。BTT 算法 的 特征 是 较 低 的 计算 代价 和 较 高 的 存储 需求 。 标 准 BTT 算法 不 适合 实 
时 运算 。 因 为 在 梯度 计算 出 来 前 (通过 整个 时 间 序 列 的 反 传 )， 每 一 个 时 间 步 的 网 络 输出 都 必 
须 计算 出 来 。(BTT 概念 的 例子 请 见习 题 E11.5.)[RuMc86]、| Werb90]. 

前 向 扰动 算法 ”前 向 扰动 算法 (也 称 为 实时 递归 学 习 算法 、 灵 敏 方法 或 循环 反 传 算法 ) 是 
用 于 实时 运算 的 。 | 

梯度 每 一 个 向 前 时 间 步 更 新 一 次 。 算 法 的 特点 是 较 高 的 计算 代价 和 较 低 的 存储 需求 。 
(前 向 扰动 概念 的 例子 见 例题 P11.4 和 P11.9.)[WiZi89], [NaPa91]. 


19.2.2 竞争 网 络 


1. 对 传 网 络 
对 传 网 络 (CPN) 把 instar 竞争 层 与 outstar BASHIR. CPN n ATAJE, ROE 


近 或 模式 联想 。 它 把 有 监督 和 无 监督 的 训练 结合 起 来 [Hech87]、[ Hech88j 。 


2. 新 认 知 机 
新 认 知 机 是 一 种 层次 结构 的 网 络 ， 也 是 目前 最 复杂 的 网 络 之 一 。 网 络 每 一 层 的 神经 元 仅 


接收 来 自前 一 层 神经 元 的 局 部 子 集 的 连接 。 新 认 知 机 用 于 模式 识别 ， 尤 其 是 手写 字符 的 识 
别 。 它 对 模式 的 大 小 和 形变 不 敏感 [FuMi83] 、 | Fuku88 | 。 


3.ART 网 络 
除了 第 16 章 讨论 的 ART1 外 ，ART 网 络 还 有 许多 变形 。ART1 用 于 二 进 制 模式 的 无 监 


督 的 分 类 。 后 来 的 网 络 被 修改 用 于 模拟 模式 的 识别 ， 有 些 也 包含 有 监督 的 学 习 [ CaGr87]、 
-CaGr90]、 [CaGrMa92]、 [CaGrRo91]、 [CaGrRe91]、[CaRo95]。 
19.2.3 动态 联想 存储 器 网 络 

Hopfield 网 络 是 本 书 中 惟一 的 动态 联想 存储 器 网 络 。 下 面 介绍 文献 中 提出 的 一 些 相 关 的 
网 络 。 
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1. Li- Michel 网 络 

这 类 网 络 可 描述 为 一 个 由 定义 在 闭 超 立 方 体 上 的 一 阶 线性 微分 方程 组 的 系统 。 网 络 的 设 
计 过 程 保 证 了 假 平衡 点 尽 可 能 地 少 和 原型 模式 的 吸引 区 尽 可 能 地 大 。 这 些 网 络 与 Hopfield 模 
型 密切 相关 ， 设 计 过 程 能 直接 应 用 于 Hopfield 模型 [LiMi89]、[ MIFa90]. 

2.Boltzman 机 

Hopfield 网 络 将 会 收敛 于 Lyapunov 函数 的 局 部 极 小 值 ， 但 并 不 能 保证 它 会 收敛 于 全 局 
极 小 值 。 在 Boltzman 机 中 ， 为 达到 全 局 极 小 值 而 使 用 噪声 。 这 个 技术 被 称 为 模拟 退火 ， 同 
冶金 中 的 退火 相似 。 模 拟 退 火 是 指 一 个 金属 体 被 加 热 到 接近 融化 ， 然 后 按照 指定 的 时 刻 表 慢 
鳃 冷却 。 高 温 引 起 了 温度 搅动 ， 这 使 金属 不 能 在 较 高 的 能 量 状态 凝固 。 在 Boltzman 机 中 ， 
网 络 的 轨迹 被 加 进 噪 声 ， 这 样 就 不 会 隐 人 局 部 极 小 值 。 噪 声 的 大 小 随时 间 逐 渐 减 小 ， 因 此 网 
络 最 终 可 以 收 钱 | GeGe84]、[ AkHi85 ] 。 

3. 双向 联想 存储 器 

双 问 联想 存储 甫 (BAM) 和 Hopfield 网 络 有 关 ， 它 的 结构 与 ART 结构 有 点 相似 。BAM 
由 两 层 组 成 ， 并 使 用 两 层 之 间 的 向 前 和 向 后 信息 流 ， 执 行 对 存储 的 刺激 -- 响应 联想 信息 的 搜 
索 。 网 络 演化 到 能 量 曲面 的 一 个 局 部 极 小 值 ， 这 是 两 个 模式 共振 的 状态 ， 在 每 一 层 的 输出 有 
一 个 模式 | Kosk87 ]、| Kosk88 |. 

4. 盒 中 脑 状 态 模型 

盒 中 脑 状 态 (BSB) 是 先 于 Hopfield 模型 的 动态 联想 存储 器 模型 。 这 种 离散 模型 是 线性 联 
想 船 的 和 扩展。 为 了 使 网 络 响应 在 超 立 方 体内 ， 增 加 了 反馈 和 使 用 饱 合 线性 传输 函数 。 对 高 增 
益 的 Hopfield 网 络 来 说 ， 稳 定点 对 应 于 超 立 方 体 的 角 [ AnSi77]。 


19.2.4 神经 网 络 的 经 典 基础 


神经 网 络 的 许多 技术 与 其 他 研究 领域 提出 的 过 程 密切 相关 。 这 一 点 常常 被 刚 从 事 这 个 领 
域 研究 的 人 员 忽 视 。 在 这 一 小 节 ， 我 们 想 回 顾 一 下 与 神经 网 络 结构 或 学 翌 规 则 密切 相关 的 其 
他 学 科 的 思想 。 

1. 统计 学 

很 多 种 神经 网 络 在 功能 上 与 数理 统计 的 一 些 标准 过 程 等 价 。 例 如 ， 单 层 前 馈 网 络 ( 包 括 
函数 链接 神经 网 络 和 多 项 式 神经 网 络 ) 基 本 上 是 推广 的 线性 模型 。 两 层 的 前 馈 网 络 与 投影 寻 
踩 回归 密切 相关 。 概 率 神 经 网 络 与 核 判 别 分 析 相 同 。 一 般 回归 神经 网 络 与 Nadaraya - Wat- 
son 核 回 归 相 同 。Kohonen 竞争 性 网 络 与 k - 均值 聚 类 分 析 相 似 。Hebb 和 学习 与 主 成 分 分 析 密 
切 相关 [ Smit93], [Sarle94], [BaCo94], [Brid90], [ MacK92], [Joll86]. [Hw La94]. 

2, 物理 学 /统计 力学 

一 些 神经 网 络 的 思想 来 自 物理 学 ， 尤 其 是 统计 力学 。 例 如 ，Hopfield 模型 就 是 模仿 统计 
力学 中 磁性 材料 的 伊 辛 自 旋 模型 。Boltzman 机 建立 在 模拟 退火 原理 的 基础 上 ， 而 这 个 原理 也 
是 来 自 统计 物理 学 文献 [ ShKi72]、|[ KiSh78]、[ Pere84/]. [ Pere92 ] 。 

3. 生物 学 /心理 学 

神经 网 络 与 生物 学 和 心理 学 中 的 思想 之 间 的 联系 是 显然 的 。 但 是 ， 即 使 整个 神经 网 络 领 
域 都 受到 这 两 门 学 科 的 影响 ， 我 们 也 时 常 跟 不 上 这 些 学 科 的 发 展 . Tham75 ]、| Gros82 }, 
| ChSe92 ] 、| Ande95 ] 。 
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19.2.5 参考 书目 和 杂志 


1 . 神经 网 络 杂 志 
本 章 所 提供 的 一 些 参考 文献 可 以 说 只 是 神经 网 络 研究 与 应 用 的 冰山 一 角 ， 如 有 果 需 要 了 解 
当前 神经 网 络 研究 的 一 些 热门 ， 可 查阅 下 面 一 些 条 志 。 其 中 一 些 是 专门 研究 神经 网 络 ， 而 另 
一 些 则 和 覆盖 更 广阔 的 领域 ,但 对 神经 网 络 研究 非常 重视 。 
。 《应 用 光学 》( Applied Optics ) 
。 《生物 学 控制 论 》( Biological Cybernetics ) 
© 《认识 科学 》( Cognitive Science ) 
。 《联系 科学 》( Connection Science) 
© (EEE 电路 与 系统 学 报 了 (JIEEE Transactions on Circuits and Systems ) 
。 IEEE 神经 网 络 学 报 》(IEEE Transactions on Neural Networks) 
。 (IEEE 系统 、 人 类 与 控制 论 学 报 》( IEEE Transactions on Systems, Man, and Cy- 
bernetics ) 
。 《神经 系统 国际 杂志 》( International Journal of Neural Systems) 
。 《人 工 神经 网 络 杂 志 》( Journal of Artificial Neural Networks ) 
。 《 认 知 神经 科学 杂志 》( Journal of cognitive Neurosciences ) 
。 (HAR) Journal of Neurosciences) 
。 《机 器 学 习 》( Machine Learning) 
。 《网 络 : 神经 系统 计算 》( Networks: Computation in Neural Systems ) 
。 《神经 计算 》( Neural Computation ) 
。 《神经 网 络 》( Neural Networks) 
。 《 美 国 科 学 院 进 展 》( Proceedings of the National Academy of Sciences ) 
2. 神经 网 络 教科 书 
我 们 在 下 面 列 出 了 一 些 神 经 网 络 参 考 书目 。 虽 然 我 们 希望 你 能 对 本 书 满意 ， 但 是 要 想 深 
和 人 了 解 一 个 主题 ， 最 好 能 从 不 同 的 角度 考察 。 下 面 每 一 本 书 都 有 一 些 目 己 的 特色 。 
。 《Self-Organization and Associative Memory), 3rd Edition, T. Kohonen, Springer- 
Verlag, 1989. | 
9 { Adaptive Pattern Recognition and Neural Networks), Y.-H. Pao, Addison-Wes- 
ley, 1989. 
° 《 Neurocomputing} , R. Hecht-Nielsen, Addison-Wesley, 1990. 
e «Introduction to the Theory of Neural Computation), J. Hertz, A. Krogh and R.G. 
Palmer , Addison-Wesley, 1991. 
© Neural Networks: Algorithms, A pplications, and Programming Techniques), J. 
A. Freeman and D. M. Skapura, Addison-Wesley, 1991. 
e < Neural Computing: An Introduction), 2nd Edition, R. Beale and T. Jackson, 
Adam Hilger, 1991. 
e (Introduction to Artificial Neural Systems), J. Zurada, West Publishing, 1992. 
。 (An Introduction to the Modeling of Neural Networks), P. Peretto, Cambridge Uni- 
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versity Press, 1992. 

© «Neural Networks and Fuzzy Systems) , B. Kosko, Prentice-Hall, 1992. 

e «Neural Networks for Pattern Recognition), A. Nigrin, MIT Press, 1993. 

° C Digital Neural Networks), S. Y. Kung, Prentice-Hall, 1993. 

© Neural Networks for Statistical Modeling), M. Smith, Van Nostrand Reinhold, 1993. 

e < Advanced Methods in Neural Computing), P. D. Wasserman, Van Nostrand Rein- 
hold, 1993. 

e Neural Networks: A Tutorial), M. Chester, Prentice-Hall, 1993. 

© < Neural Networks for Optimization and Signal Processing), A. Cichocki and R. Un- 
behauen, John Wiley & Sons, 1993. 

© Neural Networks: A Comprehensive Foundation), S. Haykin, Macmillan, 1994. 

© «Neural Network Principles), R. L. Harvey, Prentice-Hall, 1994. 

* «Fundamentals of Neural Networks: Architectures, Algorithms, and A pplica- 
tions), L. Fausett, Prentice-Hall, 1994. 

。 «Fundamentals of Artificial Neural Networks), M. H. Hassoun, MIT Press, 1995. 

¢ «An Introduction to Neural Networks), J.A. Anderson, MIT Press, 1995. 

。 «Self-Organizing Maps), T. Kohonen, Springer-Verlag, 1995. 


19.3 ”结束语 


我 们 希望 本 书 有 助 于 传播 神经 网 络 研究 领域 的 一 些 观 点 ， 鼓 舞 你 继续 探索 下 去 。 这 个 领 
域 博 大 精深 ， 并 且 发 展 迅速 。 在 今后 几 年 里 ， 神 经 网 络 肯 定 会 有 许多 新 的 发 展 。 本 书 中 所 讨 
论 的 一 些 概 念 已 为 你 继续 探索 打下 了 一 个 坚实 的 基础 。 在 这 一 章 里 ， 我 们 为 你 继续 研究 神经 
网 络 提 供 了 一 些 方向 。 
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基本 概念 
标量 ;小写 斜体 字母 ...... a, b, ¢ 
Hl: 小 写 黑 正体 字母 ...... a, b,c 
FER. 大 写 黑 正体 字母 .....， A, B, C 
语言 


向 量 表示 一 列 效 。 
行 向 量 将 矩阵 中 的 一 行 作为 一 个 向 量 ( 列 ) 使 用 。 


一 般 向 量 以 及 变换 (第 5 章 和 第 6 章 ) 





i- 行 ，) 一 列 ， 上 一 层 ，!t -时 间或 迭代 次 数 
和 矩阵 

W*( 2) 
列 向 量 

w(t) 
行 向 量 

w(t) 

偏 置 值 回 重 

标量 元 素 

bF(t) 
向 量 

b(t) 


输入 向 量 
标量 元 素 
pi 1) 
输入 向 量 序列 中 的 一 个 问 量 
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p(t) 
输入 回 量 集合 中 的 一 个 向 量 
P, 
净 输 入 向 量 
标量 元 素 
ni(t) BX ni, 
向量 
mn (1) 或 me 
输出 向 量 
标量 元 素 
ai(i) 或 ai 
a) i 
a (+) BY a; 
传输 函数 
标量 元 素 
a; = f(n) 
问 量 
a‘ = ff (nf) 
目标 向 量 
标量 元 素 
it) 或 big 
向 量 
t(1) EX t, 
原型 输入 /目标 向 量 的 集合 
tp > ti. | p> » tl, tg (po; to | 
RÆ oE 
标量 元 素 
e.(t) = t.(t) = a,(t) BX eig = bing 一 Qi ,9 
向 重 
e(i ) 或 e， 
大 小 和 和 维 数 
BEA, 每 层 的 神经 元 数 
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M, S$ 


输入 向 量 ( 和 有 目标 ) 数 ， 输 入 向 量 的 维 数 


Q, R 
3 (0) (EN A AUEM fe IG ) 
向 最 
在 第 次 选 代 
x(k) BK x, 
30 
| x | 
性 能 指标 
F(x) 
th EE RHE 
VF(x,) =g, AIV*F(x,) =A, 
参数 回 量 的 改变 
Ax, = X41 — Xn 
特征 值 和 特征 癌 量 
A; 和 z; 
近似 性 能 指标 (单个 时 间 步 ) 
F(x) 
传输 函数 的 导数 
标量 
f(n) =f (n) 
和 矩阵 
fnr) 0 


F”(n”) = 


0 Fnr) = 
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ARE AY bE 4E R 
J(x) 

UE AL ie AE PE 
H=J"J 

灵敏 度 向 量 


标量 元 素 
m_ OF 





Di 
[B4 | s” = a. 
Jn” 
Marquardt $ EX KE 4E Be 
标量 元 素 


ae ae 
子 ( 矩 ) 阵 (单个 输入 向 量 p ) #04 (481) BE RATA) 
S" as" = [SP Sr SY 
反 向 传播 及 其 变形 的 参数 
Sik BADE 
a Al y 
学 习 速 率 递增 幅度 、 递 减 幅 度 以 及 改变 的 百分率 
y PME 
共 辆 梯度 方向 调整 参数 


By 
Marquardt 参数 
4 和 9 


特征 图 术语 


神经 元 之 间 的 距离 

di - 神经 元 i 和 神经 元 j 之 间 的 距离 
邻 域 

NiCd) =), dygd! 


Grossberg 网 络 和 ART 网 络 
加 强 中 心 和 抑制 周围 连接 矩阵 
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激励 和 抑制 偏 置 值 
+tb 和 -hb 
时间 常数 


instar 和 outstar 权 值 矩阵 

Wl 和 和 We-:! 
定向 子 系统 参数 

a, 8 Al p= g (警戒 线 的 值 ) 
ART] 学 习 规则 参数 

q 


Lyapunov 稳定 性 


Lyapunov 函数 
V (a) 

零 导 数 集 、 最 大 不 变 集 和 闭 包 
Z, LAL? 

有 界 Lyapunov 函数 集 
Q, = {a: V(a) > 7 


Hopfield 网 络 的 参数 
电路 参数 
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附录 C 软 OF 


简介 


在 本 书 中 ， 我 们 使 用 了 数值 计算 和 可 视 化 软件 包 MATLAB。 但 是 需要 说 明 ， 本 书 并 不 
是 一 定 要 使 用 MATLAB。 书 中 的 计算 机 练习 也 以 采用 任何 编程 语言 实 沈 。 同 样 ， 演 示 软 件 
( Neural Network Design Demonstration ) 虽 然 有 助 于 理解 本 书 的 内 容 ， 但 它 也 并 不 是 最 关键 
的 

到 处 可 用 的 MATLAB 软件 由 于 其 矩阵 /向 量 表示 能 力 以 及 图 形 输 出 能 力 ， 是 作 神 经 网 
络 实验 的 便利 环境 。 我 们 以 两 种 不 同 的 方式 使 用 MATLAB, 一 种 是 为 读者 提供 许多 在 
MATLAB 上 实现 的 练习 。 神 经 网 络 的 许多 重要 特征 只 有 在 大 型 问题 中 才 会 体现 出 来 ， 而 这 
些 问 题 是 计算 密集 型 的 ， 不 可 能 用 手工 计算 来 求解 。 然 而 ， 如 果 使 用 MATLAB， 不 仅 可 以 
很 快 地 实现 神经 网 络 算法 ,而且 也 可 以 方 使 地 对 大 型 问题 进行 测试 。 当 然 ， 如 果 没 有 MAT- 
LAB， 也 可 以 使 用 任何 其 他 程序 设计 语言 来 完成 这 些 练习 。 
第 二 种 方法 是 通过 本 书 附带 磁盘 中 的 Neural Network Desigr. Demonstration 软件 
DS Aa 包 来 使 用 MATLAB。 这 些 交 互 式 的 演示 说 明 每 一 章 的 重要 概念 。 左 边 的 图 标 表 
示 书 中 对 这 些 演示 的 引用 。 

首先 应 该 将 MATLAB 4.0 或 更 新 的 版 本 ， 或 者 MATLAB 4.0 的 学 生 有 版 ， 安 装 在 伍 盘 的 
目录 名 MATLAB(DOS 计算 机 ) 或 一 个 文件 夹 (MAC 计算 机 ) 下 。 为 了 创建 该 目录 或 一 个 文 
件 夹 ， 完 成 整个 安装 过 程 ， 请 根据 在 MATLAB 文档 中 所 给 出 的 指示 进行 。 请 注意 根据 软件 
安装 向 导 来 设置 路 径 。 有 一 些 演 示 需 要 MathWorks 公司 的 Neural Network Toolbox 1.0 RE 
更 新 的 版 本 。 

当 这 个 软件 装 人 到 你 的 计算 机 的 MATLAB 目录 下 后 ,可 以 在 MATLAB af PRA 
nnd 进入 演示 程序 。 然 后 通过 主 菜 单 可 以 很 容易 访问 所 有 的 演示 。 

本 书 共 有 58 个 用 MATLAB 运行 的 演示 。 


演示 文件 概述 

演示 文件 包括 两 个 和 目录; NNDESIGN 和 MININNET。 第 一 个 目录 NNDESIGN 包括 所 
有 的 演示 以 及 这 些 演 示 所 使 用 的 函数 。 

第 二 个 目录 MININNET 包括 几 个 从 Neural Network Toolbox (NNT) 软 件 中 借用 过 来 的 
关键 函数 。 这 些 函 数 可 以 使 多 数 神经 网 络 演示 在 没有 NNT 的 情况 下 运行 。 但 是 ， 如 果 你 没 
有 NNT 的 话 ， 只 需要 安装 这 个 目录 即 可 。 在 机 器 中 同时 安装 NNT 和 MININNET Box, & 
可 能 由 于 借用 的 函数 在 机 器 中 存在 多 个 版 本 而 导致 一 些 不 可 预料 的 结 有 条， 
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演示 程序 的 需求 


许多 演示 既 不 需要 MININNET 目录 的 支持 ， 也 不 需要 Neural Network Toolbox WF - 
HE pg AY SE SE MININNET 目录 或 Neural Network Toolbox BEIF, DA RÁM VO Neural 
Network Toolbox 的 文 持 。 

本 附录 的 最 后 一 部 分 列 出 了 所 有 的 六 示 及 每 个 演示 的 运行 要 求 。 在 安 站 了 NNDESIGN 
目录 之 后 ， 你 可 以 在 MATLAB 内 键 人 help nndesign 看 到 同样 的 列表 ， 
运行 演示 

你 可 以 在 MATLAB 提示 符 下 直接 键 人 各 个 演示 的 名 称 来 运行 这 些 演示 。 键 入 help 
nndesign 可 以 列 出 所 有 供 你 选择 的 演示 列表 。 

男 一 种 方法 是 运行 Neural Network Design Ea ff O (nnd), Ja Ad Bn itr Contents( H 
录 ) 按 钮 ， 系 统 将 会 以 图 形 的 方式 显示 Table of Contents 目录 表 )。 在 这 里 你 可 以 使 用 窗口 底 
部 的 按钮 来 选择 章 ， 根 据 弹 出 菜单 来 选择 每 一 个 演示 - 
声音 

许多 演示 都 使 用 了 声音 。 在 许多 情况 下 加 人 声音 是 为 了 有 助 于 理解 演示 ， 渣 另 一 些 情 况 
则 仅仅 是 为 了 增加 演示 的 趣味 性 。 如 果 需 要 将 声音 关 掉 ， 你 可 以 在 MATLAB 中 使 用 下 面 的 
命令 ， 那 么 所 有 的 演示 都 将 会 静 静 地 运行 : 

msamd off 

要 把 声音 打开 ， 可 以 使 用 如 下 命令 : 

nngound on 

(KA SESE RE), BRERA ERRATA RE, Wt, BRP 
声音 关闭 ， 否 则 某 些 不 支持 声音 播放 的 机 器 在 声音 打开 时 的 状态 下 可 能 会 出 现 演 示 运 行 错 
误 。 


演示 列表 


许多 演示 都 跟随 下 面 的 两 个 符号 来 表示 其 运行 所 需要 的 资源 : 
+ 表示 需要 MININNET 中 的 函数 或 Neural Network Toolbox 的 支持 。 
x 表示 需要 Neural Network Toolbox 的 支持 。 
通用 命令 

nnd - 展示 屏幕 。 

nndtoc - Table of Contents( H RÆK )- 

nnsound - 打开 、 关 闭 Neural Network Design 演示 的 声音 。 
第 2 章 神经 元 模型 和 网 络 结构 

nnd2nl - 一 个 输入 的 神经 元 演示 。 + 

nnd2n2 - 两 个 输入 的 神经 元 演示 。+ 
BIB 一 个 说 阴性 实例 

nnd3pe 一 感知 机 分 类 演示 。 + 
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nnd3hamc ~ Hamming 分 类 演示 。 + 
nnd3hopc - Hopfield 分 类 演示 。 + 
第 4 章 ”感知 机 学 习 规 则 
nnd4db - 判定 边界 演示 。 + 
nnd4pr - 感知 机 规则 演示 。 + 
第 S 章 ”信号 和 权 值 向 量 空间 
nndSgs - Gram ~ Schmidt 演示 。 
nndSrb - 互 逆 基 演示 。 
第 6 章 神经 网 络 中 的 线性 变换 
nnd6lt — 线性 变换 演示 。 
nnd6eg - 特征 癌 量 游戏 。 
第 7 章 有 监督 的 Hebb 学 习 
nnd7sh - 有 监督 的 Hebb 演示 。 
第 8 童 ”性 能 曲面 和 最 优点 
nnd8tsl - 泰勒 级 数 演 示 # 1。 
nnd8ts2 - 泰勒 级 数 演示 # 2. 
nnd8dd - 方向 导数 演示 。 
| C23 | nnd8qf - 二 次 函数 演示 。 
OM ”性 能 优化 
nnd9sdq — 二 次 函数 最 速 下 降 法 演示 。 
nnd9me ~ 方法 比较 演示 。 
nnd9nm - 牛顿 法 演示 。 
nnd9sd - 最 速 下 降 法 演示 。 
#108 Widrow-Hoff 学 习 算 法 
nndlOnc - 自 适应 噪声 消除 演示 。 
nndl0eeg - AXE ARH TARR o 
nndl0le - 线性 模式 分 类 演示 。 
第 11 章 ” 反 传 神经 网 络 
nndllnf - 网 络 功能 演示 。 + 
nndllbc - 反 传 计算 演示 。 * 
nndilfa - 晴 数 更 近 演 未 。 * 
nndllgn 一 一 般 化 演示 。 * 
第 12 章 反 向 传播 算法 的 变形 
nndl2sdl - 最 速 下 降 反 传 演示 #1。 * 
nndl2sd2 - 最 速 下 降 反 传 演示 #2。* 
nndl2mo - 带动 量 的 反 传 演示 。 * 
nndl2vl - 可 变 学 习 速 度 的 反 传 演示 。 * 
nndl2ls ~ HRR RAR. * 
nndl2cg - HR RIERA. * 
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nndl2ms - Marquardt 步 演示 。 * 
nndl2m — Marquardt 反 传 演示 。 * 
第 13 章 联想 学 习 
nndi3uh - 无 监督 Hebb HN. + 
nndl3hd - ÆRME Hebb W. + 
nndl3edr - 衰减 率 影响 演示 。 + 
nndl3gis — 图 形 化 instar 演示 。 + 
nndl3is - instar 演示 。 + 
nndl3os 一 outstar 演示 。 + 
第 14 章 竞争 网 络 
nndl4ce - 竞争 分 类 演示 。 + 
nndi4cl - 竞争 学 习 演 示 。 + 
nndl4fml - 一 维特 征 图 演示 。 * 
nndl4fm2 - 二 维特 征 图 演示 。 * 
nndl4vl - LVQ1 演示 。* 
nndl4v2 - LVQ2 演示 。* 
第 15 章 Grossberg WH 
nnd15li - EERI ARZA 
nndl5sn - 并 联网 络 演示 。 
nndlSgll — Grossberg 层 1 演示 。 
nndlSgl2 - Grossberg 层 2 演示 。 
nndl5aw - 自 适 应 权 值 演示 。 
%16% 自 适 应 谐振 理论 
nndl6all - ARTI 层 1 演示 。 
nndl6al2 - ARTI 层 2 演示 。 
nndl6os - 定 疝 子 系统 演示 。 
nndi6al - ART! 算法 。 
第 17 章 ”稳定 性 
nndl17ds - 动态 系统 演示 。 
第 18 章 ”Hopfield WH 
nnd18hn - Hopfield 网 络 演 示 。 
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:索引 中 的 页 码 为 英文 原 书 页 码 ， 书 中 页 边 标 出 原 书 页 但。 


A 


Abbreviated notation (简化 符号 )，2 - 8 
ADALINE network (ADALINE 网 络 )，10 -2 
decision boundary (判定 边界)，10 -4 
mean squared error YY RÆ), 10-4 
Adaptive critic 〈 自 适应 评价 )，19 ~ 4 
Adaptive filtering ( 目 适应 滤波 器 )，10- 13 
Adaptive noise cancellation ( 自 适 应 噪声 消除 )，10 - 
15 
Adaptive resonance theory ( ART) 
#), 16-2 
Amacrine cell (无 长 突 细 胞 )，15 -4 
Amari, S., 15-2 
AND gate (与 门 )，4- 7 
Anderson, J. A., 1-2, 1-3, 13-2, 15-2 
Angle (角度),， 5-7 
Apple and orange example (苹果 和 杆子 实例 )，3 -2 
Hamming network solution (Hamming 网 络 求解 )， 
3-8 
Hopfield solution ( Hopfield KR), 3-12 
perceptron (RAEL), 3-3 
perceptron solution (感知 机 求解 ) ，3 -5 
problem statement (问题 描述 )，3 - 2 
Application of neural network 《神经 网 络 的 应 用 )，] 
-5 
aerospace (航空 )，1 -5 
automotive (£), 1-5 
banking (#877), 1-5 
defense (国防 )，1 -6 
electronics (电子 ), 1-6 
entertainment (娱乐 ) ,1 -6 
financial (金融 )，1 -6 
insurance (保险 )，1 -6 
manufacturing (制造 )，1 -6 
medical (医疗 )，1 -6 


( 自 适 应 谐振 理 


oil and gas (石油 和 天然气 ),，1 -6 
robotics (#L48 A), 1-7 
securities (有 价 证 券 )，1 -- 7 
speech ( 语 首 )，1 -7 
telecommunications (43/8), 1-7 
transportation (32447), 1-- 7 
ART network (ART 3%), 19-8 
ARTI 
fast learning (REF), 16-19 
Layer 1 (第 一 层 )，16 -4 
Layer 2 (第 二 层 )，16 -10 
learning law (学 习 规 则 ) 
L1- L2, 16-17 
L2- L1, 16-17 
orienting subsystem (ŒM FRA), 16-13 
resonance (fR), 16-17 
subset/superset dilemma ( F R/H R — W [5] RA), 
16-17 
summary (小 结 )，16 -21 
vigilance (ÆR), 16-15 
ART2, 16-23 
ART3, 16-23 
ARTMAP, 16-23 
Associative learning (WEF -Y ) 
Hebb rule (Hebb $W), 7-4 
instar rule (instar MLM), 13-11 
Kohonen rule (Kohonen 规则 )，13 - 17 
outstar rule (outstar 规则 )，13 - 17 
pseudoinverse rule《 仿 逆 规 则 )，7 -7 
unsupervised Hebb rule (无 监督 Hebb 规则 )，13 -5 
Associative memory (KRIT at), 7-3 
autoassociative memory ( E KEF MAr), 7-10 
bidirectional associative memory (BAM) ( 双 回 联想 
FTA), 19-9 
Boltzman machine (Boltzman $l), 19-9 
brain - state - in - a- box (& PAWIRAS), 19-9 
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Hopfield network (Hopfield 网 络 )，18 - 5 
Li- Michel network (Li- Michel 网 络 ) 19-9 
linear associator (线性 联想 器 )，7 一 3 
Associative network (联想 网 络 )，13 -3 
instar, 13-9 
outstar, 13-16 
Attractor 〔〈 吸 引子 )，18~ 11 
Autoassociative memory ( AKTAR), 7-10 


B 


Backpropagation (A mt), 11-7 

batching ( 批 处 理 )，12 -7 

CGBP, 12-15 

choice of network architecture (网 络 结构 的 选择 )， 
11-17 

conjugate gradient ($9 RA), 12- 14 

convergence (WATE), 11-19 

delta ~ bar - delta, 12- 13 

drawback ($4), 12-3 

example (ZAJ), 11-14 

generalization (推广)，11 -21 

initial weight (初始 权 值 )，12 - 6 

Jacobian matrix (FER) KÆRE), 12-23 

Levenberg - Marquardt, 12-19, 12-21 
Jacobian calculation 〈 雅 可 比 计算 )，12 - 22 
Marquardt sensitivity (Marquardt 灵敏 性 )，12 - 

24 

LMBP, 12-25 

MOBP, 12-11 

performance index (性 能 指数 )，11 -8 

performance surface( 性 能 曲面 )，12 -3 

Quickprop, 12- 14 

SDBP, 12-2 

sensitivity (RATE), 11-10 

summary (小 结 )，11 - 13 

SuperSAB, 12-14 

variation (Æ), 19-4 
cascade ~ correlation 《级 联 相关 )，19 - 5 
network pruning (网 络 修剪 ) 19-5 
Quickprop, 19-4 
regularization (规则 化 )，19 -5 
Rprop, 19-4 
stopped training 《停止 训练 )，19 -5 
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VLBP, 11-12 
Backpropagation through time (BTT) (党 时 间 反 传 )， 
19 一 7 
Basis set〈 基 集 )，5 - 5 
Batching 〈 批 处 理 ) ，12 - 7 
Bidirectional associative memory (BAM) (双向 联想 存 
储 器 )，19 - 9 
Biological inspiration of neural network 《神经 网 络 的 生 
物 学 启示 )，1 -8 | 
Biology, psychology and neutral network (生物 学 、 心 
理学 和 神经 网 络 )，19 - 10 
Bipolar cell ( 双 极 细胞 )，15 - 3 
Boltzman machine (Boltzman #L), 19-9 
Brain - state - in-—a—box (& FARKAS), 19-9 
Brightness constancy (Æ — 1), 15-8 
C 
Carpenter, G, 16-2 
Cascade - correlation (RX), 19-5 
Cerebellar model articulation controller (CMAC) (小 脑 
RAER Hila), 19-3 
CGBP, 12-15 
Chain rule (4474), 11-9 
Change of basis 〈 基 的 变换 )，6-6 
similarity transformation ( 相似 变换 ), 6-8 
Choice of network architecture (网 络 结构 选择 )，11 - 
7 
Circular hollow (环形 空洞 )，8 - 16 
Competitive learning (竞争 学 习 )，14 -7 
adaptive resonance theory( 目 适应 谐振 理论 )，16 - 
2 
ARTI, 16-4 
ART2, 16-23 
ART3, 16-23 
ARTMAP, 16-23 
Fuzzy ARTMAP (模糊 ARTMAP), 16-23 
instar rule (instar AER), 14-7 
Kohonen rule (Kohonen #10), 14-7 
learning rate (JERE), 14-9 
LVQ2, 14-21 
problem (FÆ), 14-9 
Competitive net work (竞争 网 络 )，14 一 5 
ART1, 16-4 
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Grossberg, 15- 13 Excitatory (激励 )，15 -~- 10 
Hamming network (Hamming 网 络 )，14 - 3 F 
lateral inhibition 〈 侧 向 抑制 )，14 -5 

learning vector quantization (和 学习 回 量 的 量化 ) ，14 Fahlman, A.E. , 12-14 


~ 16 Feature filling- in (特征 填充 )，15 -6 
self — organizing feature map ( 自 组 织 特 征 图 ), 14 Finite impulse response network (FIR) (Æ IRR g 
~12 应 网 络 ) 19-6 
winner - talk - all 〈 胜 者 全 得 )，14 -5 Forward perturbation algorithm (前 向 扰动 算法 )，19 
Conditioned stimulus (条 件 刺 激 )，13 -3 -8 
Cone ($18), 15-3 Fovea (HIRE), 15-5 
Conjugate direction (HE7 fal), 9 - 16 Fukushima, K., 15-2 


Conjugate gradient (WHR), 9-15, 12-14 Function approximation (KEA), 11-4 
golden section search (黄金 分 割 搜索 )，12 - 17 Functional link network (功能 链 网 络 )，19 -3 


interval location 《区 间 定 位 )，12 - 16 Fuzzy ARTMAP (模糊 ARTMAP), 16-23 
interval reduction (区 间 纵 小 )，12 ~ 16 G 
Content - addressable memory ( 按 内 容 寻 址 存储 器 )， 
18-16 Ganglion cell (ATA), 15-4 

Contour plot (轮廓 线 图 )，8 一 8 Gauss - Newton algorithm (高 斯 - 牛顿 算法 )，12 - 
Contrast enhancement (对 比 增强 )，15 -18 21 
Correlation matrix (FAX), 10-6 Jacobian matrix (HE 5] EHIE), 12-20 
Counterpropagation (Xff%), 19-8 Generalization (#EJ~), 11-21 

D Generalized regression neural network (三 义 回归 神经 

Ze), 19-6 
Decay rate (衰减 速度 )，13 - 7 Golden section search (黄金 分 割 搜索 )，12 - 17 
Decision boundary 〈 判 定 边界 )，4-S$,，10-4,，11-4 Gredient ($E), 8-4 
Delay (ZERY), 2- 13 Gradient descent (梯度 下 降 法 )，9 -2 
Delta rule ( 增 量 规则 )，7- 13，10 -7 Gram - Schmidt orthogonalization (Gram - Schmidt IF 
Delta -~ bar ~ delta, 12-13 Zik), 5-8 
Descent direction ( FJ), 9 - 13 Grossberg competitive network (Grossberg Fi # M4 24 ), 
Diagonalization 〈 对 角 化 )，6- 13 15 - 13 
Directional derivative (77 I 2), 8-5 choice of transfer function 《传输 图 数 的 选择 )，15$ 
Domain (定义 域 )，6 -2 - 20 
: Layer 1 (第 一 层 )，15 - 13 

日 Layer 2 (JA), 15-37 
Echo cancellation (回声 消除 ) 10-21 learning law (学 习 规 则 ) 15-22 
EEG, 11-15 relation to Kohonen law (与 Kohonen 规则 的 天 
Eigenvalue (特征 值 ), 6- 10 系 )，15S- 24 
Figenvector (FEE), 6-10 Grossberg, S., 1-3, 13-2, 15-2, 16-2 
Elliptical hollow aze), 8~17 Group method of data handling (GMDH) (数据 处 理 
Elman network (Elman 网 络 )，19 -7 的 成 组 方法 )，19 -3 
Emergent segmentation (应 急切 断 )，15 -6 H 


Equilibrium point (平衡 点 )，17 -4 
Euclidean space (ILE es lal), 5-3 : Hamming network (Hamming M2), 3-8, 14-3 
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feedforward layer (BJ RJZ), 3-8, 14-3 Inhibitory (抑制 )，15 - 10 
recurrent layer (递归 层 ),，3-9, 14-4 Inner product (SR), 5-6 
Hebb rule (Hebb 规则 )，7- 4,，18 - 18 Instar，13 -9 
decay rate (FERWER), 13-7 Instar rule (instar 规则 )，13 -11，14-7 
performance analysis (性 能 分 析 )，7 -5 Integrator 《积分 器 )，2 - 13 
supervised (A KBA), 7-4, 13-5 Interval location 〈 区 间 和 定位 )，12 - 16 
unsupervised 〈 无 监督 的 )，7- 12 Interval reduction 《区 间 缩 小 )，12 ~ 16 
with decay ( 5 HLA), 7-12 Invariant set (不 变 集 )，17 一 13 | 
Hebb, D.O., 1-3, 7-2 
Hebb’s postulate (Hebb (Rix), 7-2 i 
Hebbian learning (Hebb 学 习 ), 7-2 Jacobian matrix (J0 EERE), 12-20 
variation (FÆ), 7-2 Jacobs, R. A. (R. A. HEAT EK), 12-13 
Hessian (#8), 8-5 Journal (杂志 )，19- 10 
eigensystem (特征 系统 )，8 - 13 K 


Hidden layer (BRAG), 2-11 
High - gain Lyapunov function (高 增益 Lyapunov P Kohonen rule (Kohonen ALM), 13-15, 14-7 


RX), 18-13 graphical representation (图 形 表 示 )，14 -7 
Hinton, G. E., 11-2 Kohonen, T., 1-13, 13-2, 15-2 
History of neural network (神经 网 络 的 历史 )，1 -2 | 
Hoff, M.E., 1-3, 10-2, 11-2 
Hopfield model (Hopfield 模型 )，18 -- 3 LaSalle’s corollary (LaSalle 推论 )，17 - 14 
Hopfield network (Hopfield 35), 3-12, 6-2, 18 LaSalle’s Invariant Theorem (LaSalle 不 变性 定理 )， 

-5 17 - 13 

attractor (R51), 18-11 invariant set (ANZESR), 17-13 
design (itt), 18-16 set (R) 
content - addressable memeoty ( 按 内 容 寻 址 存储 L, 17-13 
žE), 18-16 Z, 17-12 
effect of gain (增益 效应 ) 18-12 Lateral inhibition 〈 侧 加 抑制 )，14 -5 
example (EA), 18-7 Layer (fe), 2-9 
Hebb rule (Hebb SER), 18-18 competitive (ZF), 14-5 
high — gain Lyapunov function (+4 2t Lyapunov PÑ problem 《问题 )，14 -9 
数 ) 18-13 hidden (3), 2-11 
Lasalle’s invariance theorem (LaSalle 不 变性 定理 )， output layer 〈 输 出 层 ) ，2-~ 11 
18-7 superscript 《上 标 )，2- 11 
Lyapunov function (Lyapunov PA3X), 18-5 Le Cun, Y., 11-2 
Lyapunov surface (Lyapunov 曲面 ) 18- 22 Leaky integrator 〈 漏 积分 着 )，15 -9 
spurious pattern (fA), 18-20 Learning rate (学 习 速 度 ),， 9-3, 10-8 | 
Hopfield, J.J., 1-4 competitive learning (py), 14-9 
Horizontal cell (水 平 细胞 ) 15-4 stable (稳定 的 )，9- 6，10- 10 
Hubel, D. H., 14-2, 15-12 Learning rule〈 学 习 规 则 ) ，4- 2? 
ART1, 16-21 


| backpropagation ( 反 向 传播 )，11 -7 
Iusion (ZJ), 15-4 competitive learning (Rae), 14-7 
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delta rue ( 增 量 规则 )，7- 13 


Grossberg competitive network ( Grossberg 竞争 网 


络 )，15 - 22 
Hebb rule (Hebb 规则 )，7 -4 
Hebbian learning (Hebb #-J). 7-2 


learning vector quantization (#4) MeL), 14 


~ 16 

LMS algorithm (LMS 3), 10-7 
local learning (局 部 学 习 )，13 -5 
perceptron (RAEL), 4-8, 4-13 

proof of convergence (UN OYMEGEBR), 4-15 
performance learning (PERE -J), 8-2 
pseudoinverse rule (HŽ M), 7-7 
reinforcement learning 《增强 学 习 ) ，4- 3 
supervised learning 《有 监督 的 学 习 )，4 -3 
unsupervised learning (无 监督 的 学 习 ), 4-3 
Widrow - Hoff, 7-13 


Learning vector quantization (LVQ) ( om © [n) Bt AY 


i£), 14-16 
subclass (F), 14-17 


Levenberg - Marquardt algorithm ( Levenberg - Mar- 


quardt 算法 ) 12-19, 12-21 
Jacobian calculation (HEP ITH), 12-22 
Jacobian matrix (HEFT HERE), 12 - 20 
Li - Michel network (Li- Michel 28), 19-9 
Linear associator 《线性 联想 器 )，7 - 3 
Linear independence (线性 无 关 )，5 -4 
Linear separability 《线性 可 分 性 )，4 - 19 
Linear transformation (线性 变换 )，6 -2 
change of basis 〈 基 变换 )，6 -6 
domain (定义 域 ), 6-6 
matrix representation (ERR), 6-3 
change of basis (ÆFIR), 6-6 
range ( 值 域 ),， 6-2 
Linear vector space (线性 向 量 空间 )，5 -2 
LMBP, 12-25 
LMS algorithm (LMS ŽŽ), 10-2, 10-7 
adaptive filtering (AiG MER), 10-13 


adaptive noise cancellation 《上 有 目 适 应 噪声 消除 )，10 


-15 
analysis of convergence (收敛 性 分 析 )，10 -9 
learning rate (学 习 速 度 )，10 -8 
stable learning rate (稳定 的 学 习 速 度 )，10 - 10 


Local learning (局 部 学 习 )，13 -5 

Long-term memory (LTM) (长 期 记忆 )，15 - 12, 
15 一 22 

LVQ2, 14-21 

Lyapunov function (Lyapunov PRX), 17- 12 

Lyapunov stability theorem ( Lyapunov 稳定 性 定理 )， 
17 ~ 16 


M 


Mach, E., l-2 
Marquardt algorithm ( Marquardt A), 12-19 
Marquardt sensitivity ( Marquardt RAE), 12-24 
Matrix representation (4E REX 7R), 6-3 
change of basis (22227), 6-6 
diagonalization (对 角 化 ) ，6- 13 
McClelland, J. L., 1-4, 11-2 
McCulloch, W.S., 1-3, 4-2 
Mean squared error (4777 RÆ), 10-4, 11-8 
Memory (FER EY 
associative (联想 )，7 -3 
autoassociative (有 自 联 想 ), 7-10 
Mexican ~ hat function (S75 BARRE par), 14-11 
Minima 《 极 小 点 )，8 一 7 
first ~ order condition (一 阶 条 件 )，8 - 10 
global minimum (LÆRA), 8-7 
necessary condition (必要 条件 )，8 -9 
second — order condition (二 阶 条 件 }，8 - 11 
strong minimum ( 强 极 小 点 )，8 -7 
sufficient condition 〈 充 分 条 件 )，8- 11 
weak minimum 〈 弱 极 小 点 )，8- 7 
Minsky, M., 1-3, 4-2 
MOBP, 12-11 
Modular network 〈 模 块 化 网 络 )，19-4 
Momentum (H), 12-9, 13~7 
Multilayer perceptron (多 层 感 知 机 )，11 -2 


N 


Negative definite matrix (MEER), 8-11 

Negative semidefinite ( 半 负 定 )，8- 11 

Neighborhood ( 邻 域 ) 14-12 

Neocognitron (新 认 知 机 ) , 19-8 

Network architecture 〈 网 络 结构 )，2-9 
layer (fe), 2-9 
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multilayer (BFF), 2-10 
Network pruning (i8139), 19-5 
Neural network journal (神经 网 络 杂 志 )，19 - 10 
Neural network textbook 《神经 网 络 教科 书 )，19- 11 
Neural Network Toolbox for MATLAB ( MATLAB 的 
Neural Network Toolbox), 1-5 
Neuron model (神经 元 模型 )，2- 2 
multiple — input neuron (ERAZI), 2-7 
single ~ input neuron 〈 单 输入 覃 经 元 ) 2-2 
transfer function ({¢#7 PM), 2-3 
Newton’s method (牛顿 法 ), 9-10 
Nilsson, N., 14-2 
Noise cancellation (噪声 消除 ) 
adaptive ( B304), 10-15 
echo cancellation (回声 消 际 )，10 - 21 
Nonlinear autoregressive moving average ( NARMA) 
network (〈 非 线性 自 回归 移动 平均 网 络 ) 19-7 
Norm (X), 5-7 


O 


On - center/off - surround (HRR P-A tall Al A), 14 
- 11, 15-14 
Optic disk OÆ), 15-5 
Optimality (优化 ) 
first - order condition 〈 一 阶 条 件 )，8- 10 
necessary condition (必要 条 件 )，8 -9 
second - order condition (二 阶 条 件 )，8 11 
sufficient condition (充分 条 件 )，8 - 11 
Optimization (优化 ) 
conjugate gradient (9HR), 9-15, 12- 14 
descent direction (下 降 方 向 )，9 - 3 
Gauss - Newton (高 斯 - 牛顿 法 )，12 - 21 
Levenberg - Marquardt (Levenberg - Marquardt 算 
法 )，12- 19, 12-21 
Newton’s method (牛顿 法 )，9- 10 
quadratic termination 《二 次 终结 法 )，9 - 15 
steepest descent (最 速 下 降 法 )，9 -2 
stable learning rate (稳定 的 学 习 速度 )，9 -6 
Oriented receptive field (IES EK), 15-20 
Orienting subsystem (EMI FRB), 16-13 
Orthogonality (EXE), 5-7 
Orthonormal (标准 正 交 )，5 -9 


Outstar, 13- 16 
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Outstar rule (outstar 规则 )，13 -17 
P 


Papert, S., 1-3, 4-2 
Parker, D.B., 11-2 
Pattern classification (模式 分 类 )，11-3 
Pavlov, I., 1-2 
Perceptron (感知 机 ) ，3 一 3 
architecture (2444), 4-3 
constructing learning rule (构造 学 习 规则 )，4- 10 
decision boundary (FEF), 4-5 
learning rule (YAM), 4-8, 4-13 
proof of convergence《〈 收 全 性 证 明 )，4 - 15 
multilayer (JZ), 11-2 
multiple - neuron (多 神经 元 )，4 -8 
single - neuron (HMT), 4-5 
test problem (测试 问题 )，4 -9 
training multiple - neuron percepiron (训练 多 神经 
元 感知 机 ) ，4 - 13 
two - input case《〈 双 输 和 人 情况 )，3 -4 
unified learning rule (统一 的 学 习 规 则 )，4- 12 
Performance index (性 能 指数 )，8 -2, 11 -8 
quadratic function (二 次 函数 )，8- 12 
Performance learning (性 能 学 习 )，8- 2 
Pipelined recurrent neural network (PPRN) (流水 线 
递归 神经 网 络 )，19 -6 
Pitts, W. H., 1-3, 4-2 
Polynomial net work (多 项 式 网 络 )，19- 3 
functional link network (功能 链 网 络 )，19 -3 
group method of data handling (GMDH) (数据 处 理 
的 成 组 方法 )，19- 3 
Sigma ~ Pi network (Sigma - Pi 了 网络)，19 -4 
Positive definite 〈 正 定 )，17 -5 
Positive definite matrix (E), 8-11 
Positive semidefinite ( 半 正 定 ), 8-11, 17-5 
Probabilistic neural network (概率 神经 网 络 })，19--6 
Projection (投影 )，5 -8 
Prototype pattern 《原型 模式 )，18 -. 16 
Pseudoinverse rule ( 仿 逆 规则 )，7 -7 


Q 


Quadratic function 〈 二 次 函数 )，8- 12 
circular holow ( 环 状 空调 )，8 - 16 


ww ai bbt. com DO00000: 


462 PPLE PJ IBI tf 

elliptical hollow 〈 椭 圆 空洞 ) 8-17 

Hessian (aR ) 

eigensystem (特征 系统 )，8 -~ 13 

saddle point (A), 8-18 

stationary valley (3&8), 8-19 
Quadratic termination (二 次 终结 法 )，9 -15 
Quickprop, 12-14, 19-4 


R 


Radial basis network ( 径 向 基本 网 络 )，19 -2 

Range ( 值 域 ;,，6 ~-2 

Real - time recurrent network (RTRN) (实时 递归 网 
%), 19-7 

Reciprocal basis vector (H. #3] HE), 5-10 

Recurrent network GA HW), 2-13, 2-14, 17- 
2 

Regularization (规则 化 )，19 - 5 
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